国产网红主播福利一区二区_国产精品天干天干在线综合_亚洲精品视频一区_日韩欧美美女一区二区三区

突破實時生成瓶頸,Soul CEO張璐團隊發(fā)布開源模型SoulX-LiveAct

來源:今日熱點網(wǎng)


突破實時生成瓶頸,Soul CEO張璐團隊發(fā)布開源模型SoulX-LiveAct

聚焦長時穩(wěn)定與實時推理,Soul CEO張璐團隊開源SoulX-LiveAct模型

近日,Soul App CEO張璐團隊宣布,其AI研究團隊Soul AI Lab正式發(fā)布開源模型SoulX-LiveAct。作為面向實時數(shù)字人生成的重要技術成果,該模型圍繞“長時穩(wěn)定”與“實時流式”兩大核心目標,對現(xiàn)有生成范式進行了系統(tǒng)性優(yōu)化。在數(shù)字人直播、視頻播客以及實時互動場景不斷擴展的背景下,SoulX-LiveAct為實時生成技術的工程化落地提供了新的實現(xiàn)路徑。

隨著人工智能在內(nèi)容生成領域的應用加速,數(shù)字人技術逐漸從實驗性演示走向實際應用場景。然而,在長時間運行的情況下,傳統(tǒng)生成模型往往難以保持一致表現(xiàn)。當視頻生成時長延伸至分鐘甚至小時級,模型容易出現(xiàn)身份漂移、細節(jié)退化、畫面閃爍等問題,同時推理成本也會隨時間增加而上升。

針對上述挑戰(zhàn),SoulX-LiveAct在整體架構上采用自回歸擴散(AR Diffusion)范式,并引入Neighbor Forcing與ConvKV Memory兩項關鍵機制,構建面向長時序生成的穩(wěn)定體系。在具體實現(xiàn)上,模型以chunk為基本生成單元,通過逐段生成與上下文銜接,實現(xiàn)連續(xù)的視頻輸出。在每個chunk內(nèi)部,擴散模型負責細節(jié)建模,而在chunk之間,通過條件信息傳遞實現(xiàn)動作與身份的一致延續(xù),從而形成完整的流式推理閉環(huán)。

在核心機制方面,Neighbor Forcing通過在同一擴散步內(nèi)傳播相鄰幀的latent信息,使模型在統(tǒng)一的噪聲語義空間中進行預測,有效降低訓練與推理過程中因分布不一致帶來的不穩(wěn)定因素。與此同時,ConvKV Memory對歷史信息進行結構性壓縮,將傳統(tǒng)線性增長的緩存轉化為“短期精確+長期壓縮”的組合形式:近期信息保留高精度以保證局部細節(jié),遠期信息通過輕量卷積進行壓縮,從而在控制內(nèi)存占用的同時保留關鍵上下文信息。此外,模型還通過RoPE Reset對位置編碼進行對齊,進一步減少長序列生成中的位置漂移問題。

在推理效率方面,SoulX-LiveAct強調(diào)“穩(wěn)定延遲”與“恒定顯存”。通過ConvKV Memory機制,歷史信息不再隨時間線性增長,使顯存占用保持在固定范圍內(nèi)。這一設計使得模型在長時間運行過程中,計算與通信成本保持穩(wěn)定,不會隨著視頻長度增加而顯著上升。在實際性能表現(xiàn)上,系統(tǒng)在512×512分辨率下,可在2×H100/H200硬件條件下實現(xiàn)20 FPS的流式推理,同時端到端延遲約為0.94秒,計算成本為27.2 TFLOPs/frame,體現(xiàn)出較為均衡的實時性與資源利用效率。

在多項評測基準中,SoulX-LiveAct也展示了其綜合性能優(yōu)勢。在HDTF數(shù)據(jù)集上,模型取得9.40的Sync-C與6.76的Sync-D,在分布相似性指標上達到10.05 FID與69.43 FVD,并在VBench中獲得97.6的Temporal Quality與63.0的Image Quality,VBench-2.0的Human Fidelity達到99.9。在EMTD數(shù)據(jù)集上,模型同樣保持領先表現(xiàn),取得8.61 Sync-C與7.29 Sync-D,并在VBench中實現(xiàn)97.3的Temporal Quality與65.7的Image Quality,Human Fidelity達到98.9。這些結果表明,該模型在口型同步、動作一致性以及整體畫面穩(wěn)定性方面具備較強能力。

基于上述性能表現(xiàn),SoulX-LiveAct能夠支持多種需要長期在線運行的應用場景,包括數(shù)字人直播、AI教育、智慧服務終端以及知識內(nèi)容生產(chǎn)等。在開放世界互動場景中,數(shù)字角色需要在長時間交互過程中持續(xù)保持一致表達能力。SoulX-LiveAct在全身動作數(shù)據(jù)集上的表現(xiàn)以及其實時流式推理能力,使其具備支持此類復雜場景的基礎條件。

SoulX-LiveAct的發(fā)布,也延續(xù)了Soul AI團隊在實時數(shù)字人方向的技術布局。此前,團隊已開源SoulX-FlashTalk與SoulX-FlashHead兩個模型,分別在超低延遲與輕量化部署方面進行了探索。此外,團隊還在語音與交互領域推出了SoulX-Podcast、SoulX-Singer以及SoulX-Duplug等模型與模塊,逐步構建圍繞“實時交互”的多模態(tài)技術體系。

通過持續(xù)開放模型與技術方案,Soul CEO張璐團隊不僅推動了自身AI能力的迭代,也為開發(fā)者社區(qū)提供了可復用的技術基礎,促進更多應用場景的探索與落地。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

標簽:

推薦

財富更多》

動態(tài)更多》

熱點

主站蜘蛛池模板: 免费国产成人av| 国产精品久久精品国产| 久久久亚洲天堂| 国产日韩视频在线观看| 日本一区免费在线观看| 奇米影视亚洲狠狠色| 精品亚洲欧美日韩| 国产婷婷一区二区三区| 在线播放 亚洲| 久99久视频| 国产一区二区视频在线免费观看| 欧美在线不卡区| 日韩av成人在线观看| 日韩在线观看你懂的| 欧美一区二区三区在线免费观看| 亚洲一区二区三区免费观看| 亚洲国产精品综合| 欧美日韩精品免费观看视一区二区| 日韩精品福利视频| 久久精品99久久久香蕉| 国产精品视频26uuu| 91精品视频专区| 热久久精品国产| 国产精品视频99| 亚洲综合视频1区| 免费99精品国产自在在线| 国产精品国产三级国产专播精品人| 91久久久久久久久久久久久| 日韩成人av电影在线| 国产精品三级一区二区| 日韩欧美视频一区二区三区四区| 欧美亚洲在线观看| 久久九九免费视频| 91精品成人久久| 久久av在线播放| 日韩在线精品一区| 国产极品尤物在线| 精品少妇人妻av一区二区| 五月婷婷综合色| 精品久久蜜桃| 日本一区免费看|