InfinityHuman – 字節聯合浙大推出的AI數字人視頻生成模型
InfinityHuman:字節跳動與浙江大學攜手打造的商用級長時序音頻驅動人物視頻生成新標桿,為AI數字人實用化開啟全新可能。
InfinityHuman 是一款由字節跳動與浙江大合研發的尖端技術模型,專為生成高質量、長時序的音頻驅動人物視頻而設計,標志著AI數字人技術邁向了商業化應用的新紀元。該模型巧妙運用 coarse-to-fine 架構,首先生成低分辨率的動作表達,隨后通過姿態引導細化器逐步精煉,最終輸出高分辨率的逼真視頻。為解決現有技術在手部動作上的痛點,InfinityHuman 特別引入了手部專屬獎勵機制,顯著提升了手部動作的自然度和與語音的同步性,有效克服了身份漂移、畫面不穩及手部動作僵硬等常見難題。在 EMTD 和 HDTF 數據集的評測中,InfinityHuman 均展現出卓越的性能,為虛擬主播、在線教育、客戶服務等眾多領域帶來了前所未有的應用潛力。
InfinityHuman 的核心優勢
- 時長與分辨率的突破:能夠生成細節豐富、時長穩定的高分辨率人體動畫視頻,確保視覺連貫性。
- 靈動自然的手部演繹:通過精細的手部動作優化,實現逼真、精準且與語音完美契合的手部姿態。
- 堅若磐石的身份穩定性:借助姿態引導細化器和首幀視覺錨點,有效抑制累積誤差,確保人物身份在長時間的視頻中始終如一。
- 唇齒間的精準同步:實現人物口型與音頻的毫秒級同步,極大地增強了視頻的真實感。
- 百變風格的個性化呈現:支持生成多樣化的角色風格,滿足不同應用場景的個性化需求。
InfinityHuman 的技術內核
- 音頻驅動的動作基石:模型首先解析音頻信號,生成與語音節奏高度匹配的低分辨率動作序列(pose),為后續的高精度渲染奠定基礎,確保整體的韻律感和口型準確性。
- 姿態引導的精細雕琢:在此基礎上,姿態引導細化器發揮關鍵作用,將低分辨率的動作“藍圖”轉化為細膩逼真的高分辨率視頻。
- 穩定的姿態序列支撐:姿態序列作為中間橋梁,有效抵抗時間維度上的信息衰減,維持畫面的視覺統一性。
- 首幀的視覺導航:將視頻的首幀作為視覺基準,通過持續的參照與校正,確保人物身份和畫面細節的長期準確性,最大程度地減少誤差累積。
- 手部動作的專屬優化:依托海量高質量手部動作數據訓練,深度融合手部專屬獎勵機制,顯著提升了手部動作的生動性與語音的同步精度。
- 多模態信息的融合之道:模型能夠整合參考圖像、文本描述以及音頻等多維度信息,實現視覺聽覺的雙重協調與自然流暢。
探索 InfinityHuman 的無限可能
- 虛擬主播的革新:賦予虛擬主播更生動、自然的播報與主持表現,提升觀眾沉浸感,同時顯著降低運營成本。
- 互動式在線教育:AI教師在講解過程中輔以恰當的手勢,使教學內容更具象化,有效激發學生的學習熱情與專注力。
- 智慧型客服體驗:數字客服在交流時能自然地運用肢體語言,打破傳統客服的刻板印象,顯著提升客戶滿意度。
- 影視制作的效率飛躍:為電影、電視劇等內容創作提供高效的人物動畫生成工具,大幅縮減人工繪制和后期修復的工作量。
- 沉浸式虛擬社交:在VR/AR環境中,為虛擬角色賦予逼真的動作與表情,為虛擬社交注入真實感與互動性,提升用戶體驗。
了解更多詳情,請訪問:
- 項目官網:https://infinityhuman.github.io/
- arXiv 技術論文:https://arxiv.org/pdf/2508.20210
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號