TANGO 是一款由東京大學和 CyberAgent AI Lab 聯合開發的開源框架,致力于生成與目標語音完美同步的全身手勢視頻。借助分層音頻嵌入技術和擴散插值網絡,TANGO 能夠將目標語音與參考視頻庫中的動作精準匹配,從而打造出高保真、動作同步的視頻內容。這項技術的突破顯著降低了視頻制作成本,廣泛應用于新聞播報、虛擬人解說及虛擬 YouTube 內容創作等領域,為用戶提供了高效、經濟的解決方案。
TANGO是什么
TANGO 是一個創新的開源框架,由東京大學與 CyberAgent AI Lab 共同推出,專注于生成與目標語音同步的全身手勢視頻。其核心技術包括分層音頻嵌入和擴散插值網絡,旨在確保生成的視頻具有高保真度和自然流暢的動作表現。通過這一技術,用戶能夠在視頻制作中實現高效與經濟的雙重目標,覆蓋新聞播報、虛擬人解說及虛擬 YouTube 內容創作等多個領域。
TANGO的主要功能
- 全身手勢生成:根據目標語音音頻生成與之同步的全身手勢視頻。
- 高保真度視頻制作:確保生成的視頻畫面清晰,動作自然且與語音內容精確對應。
- 音視頻跨模態對齊:利用分層音頻嵌入技術,實現音頻信號與視頻動作之間的精準匹配。
- 優質過渡幀生成:通過擴散插值網絡生成高質量的過渡幀,確保視頻中的動作流暢連貫。
- 保持外觀一致性:在生成的視頻中確保人物外觀和背景與參考視頻保持一致,避免視覺上的不協調。
TANGO的技術原理
- 分層音頻嵌入(AuMoCLIP):利用隱式層次化的音頻-動作聯合嵌入,在編碼音頻和動作數據時進行對比學習,將二者映射到一個共同的潛在空間中,從而實現精準的動作檢索。
- 擴散插值網絡(ACInterp):基于現有的視頻生成擴散模型,生成高質量的過渡幀,并通過參考模塊和背景流保持生成視頻與參考視頻的外觀一致性,有效消除模糊和重影等偽影。
- 動作圖檢索方法:采用學習驅動的方式,智能檢索與目標語音音頻匹配的動作路徑,能更好地處理不同說話者的動作與音頻不同步的情況。
- 圖結構:通過有向圖結構表示視頻幀(節點)及其有效轉換(邊),系統提取時間特征以檢索視頻播放路徑的子集,必要時利用ACInterp生成平滑的過渡幀。
TANGO的項目地址
- 項目官網:pantomatrix.github.io/TANGO
- arXiv技術論文:https://arxiv.org/pdf/2410.04221
- 在線體驗Demo:https://huggingface.co/spaces/H-Liu1997/TANGO
TANGO的應用場景
- 新聞播報:生成與新聞內容同步的全身手勢視頻,提升播報的自然程度及觀眾的觀看體驗。
- 虛擬YouTuber:為虛擬YouTuber制作與語音同步的全身動作視頻,增強與粉絲的互動感。
- 在線教育:在教育內容制作中,利用TANGO生成教師的全身手勢視頻,使遠程教學更加生動有效。
- 企業培訓:在企業培訓視頻中添加與講解同步的手勢,提升學習材料的吸引力和信息傳遞的效率。
- 視頻會議:通過TANGO生成的手勢視頻提升視頻會議中的交流體驗,尤其在遠程協作時更為顯著。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...