上海交大計算機系在讀博士譚帥主講~
原標題:ECCV 2024 Oral!上交大聯合網易伏羲開源用于對話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預告
文章來源:智猩猩GenAI
內容字數:2898字
高效解耦的可控對話人臉生成:EDTalk框架詳解
本文總結了上海交通大學譚帥博士在智猩猩AI新青年講座第262講中關于高效解耦的可控對話人臉生成框架EDTalk的精彩分享。該框架由上海交通大合網易伏羲共同研發,并已開源,其論文成果已被ECCV 2024接收并作口頭報告。
1. 對話人臉生成技術的不足
傳統的說話頭部動畫技術在模擬人物嘴型和基本表情方面存在局限性,難以精細控制并實現真實的情感表達。這限制了其在虛擬人物制作和應用中的發展。
2. EDTalk框架:高效解耦的可控對話人臉生成
EDTalk框架旨在解決上述問題,它通過高效的解耦策略,實現對嘴型、頭部姿勢和情感表達的控制。該框架的核心在于將面部動態分解到三個的潛在空間,分別對應嘴型、姿勢和表情,每個空間都有一組可學習的基向量,其線性組合定義特定的動作。
3. 解耦策略:控制嘴型、姿勢和表情
EDTalk框架的關鍵創新在于其解耦策略。通過執行基向量之間的正交性,并設計高效的訓練策略,確保三個潛在空間的操作,互不干擾。這種設計不僅提高了控制精度,也加快了訓練速度。值得一提的是,該方法無需依賴外部知識,即可賦予每個空間其特定的方向。
4. 音頻動作模塊:音頻驅動的對話人臉合成
為了實現音頻驅動的對話人臉合成,EDTalk框架設計了音頻到動作模塊。該模塊利用學習到的基向量庫,將音頻輸入轉化為相應的嘴型、姿勢和表情動作,從而生成逼真的對話人臉動畫。學習到的基向量存儲在相應的庫中,實現了與音頻輸入共享視覺先驗。
5. EDTalk框架的優勢
EDTalk框架具有以下優勢:輕量級模塊設計,提高了效率;控制不同面部動作,提升了可控性;適應不同的輸入模式(視頻或音頻),增強了應用性和娛樂性;無需外部知識,簡化了訓練過程。
6. 其他相關工作
譚帥博士還介紹了其團隊的其他相關工作,包括EMMN、Say anything with any style和Style2talker等,這些工作都致力于提升對話人臉生成的質量和多樣性,進一步豐富了數字人技術的研究成果。
7. 總結
EDTalk框架為對話人臉生成領域帶來了新的突破,其高效的解耦策略和靈活的應用性,為虛擬人物的制作和應用提供了強大的技術支持。譚帥博士及其團隊的貢獻推動了數字人技術的發展,為構建更逼真、更具情感表達力的虛擬人物奠定了堅實的基礎。該框架的開源也方便了更多研究者進行進一步的研究和應用。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。
相關文章
