ECCV 2024 Oral!上交大聯(lián)合網(wǎng)易伏羲開源用于對話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預(yù)告
上海交大計算機(jī)系在讀博士譚帥主講~
原標(biāo)題:ECCV 2024 Oral!上交大聯(lián)合網(wǎng)易伏羲開源用于對話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預(yù)告
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):2898字
高效解耦的可控對話人臉生成:EDTalk框架詳解
本文總結(jié)了上海交通大學(xué)譚帥博士在智猩猩AI新青年講座第262講中關(guān)于高效解耦的可控對話人臉生成框架EDTalk的精彩分享。該框架由上海交通大合網(wǎng)易伏羲共同研發(fā),并已開源,其論文成果已被ECCV 2024接收并作口頭報告。
1. 對話人臉生成技術(shù)的不足
傳統(tǒng)的說話頭部動畫技術(shù)在模擬人物嘴型和基本表情方面存在局限性,難以精細(xì)控制并實現(xiàn)真實的情感表達(dá)。這限制了其在虛擬人物制作和應(yīng)用中的發(fā)展。
2. EDTalk框架:高效解耦的可控對話人臉生成
EDTalk框架旨在解決上述問題,它通過高效的解耦策略,實現(xiàn)對嘴型、頭部姿勢和情感表達(dá)的控制。該框架的核心在于將面部動態(tài)分解到三個的潛在空間,分別對應(yīng)嘴型、姿勢和表情,每個空間都有一組可學(xué)習(xí)的基向量,其線性組合定義特定的動作。
3. 解耦策略:控制嘴型、姿勢和表情
EDTalk框架的關(guān)鍵創(chuàng)新在于其解耦策略。通過執(zhí)行基向量之間的正交性,并設(shè)計高效的訓(xùn)練策略,確保三個潛在空間的操作,互不干擾。這種設(shè)計不僅提高了控制精度,也加快了訓(xùn)練速度。值得一提的是,該方法無需依賴外部知識,即可賦予每個空間其特定的方向。
4. 音頻動作模塊:音頻驅(qū)動的對話人臉合成
為了實現(xiàn)音頻驅(qū)動的對話人臉合成,EDTalk框架設(shè)計了音頻到動作模塊。該模塊利用學(xué)習(xí)到的基向量庫,將音頻輸入轉(zhuǎn)化為相應(yīng)的嘴型、姿勢和表情動作,從而生成逼真的對話人臉動畫。學(xué)習(xí)到的基向量存儲在相應(yīng)的庫中,實現(xiàn)了與音頻輸入共享視覺先驗。
5. EDTalk框架的優(yōu)勢
EDTalk框架具有以下優(yōu)勢:輕量級模塊設(shè)計,提高了效率;控制不同面部動作,提升了可控性;適應(yīng)不同的輸入模式(視頻或音頻),增強(qiáng)了應(yīng)用性和娛樂性;無需外部知識,簡化了訓(xùn)練過程。
6. 其他相關(guān)工作
譚帥博士還介紹了其團(tuán)隊的其他相關(guān)工作,包括EMMN、Say anything with any style和Style2talker等,這些工作都致力于提升對話人臉生成的質(zhì)量和多樣性,進(jìn)一步豐富了數(shù)字人技術(shù)的研究成果。
7. 總結(jié)
EDTalk框架為對話人臉生成領(lǐng)域帶來了新的突破,其高效的解耦策略和靈活的應(yīng)用性,為虛擬人物的制作和應(yīng)用提供了強(qiáng)大的技術(shù)支持。譚帥博士及其團(tuán)隊的貢獻(xiàn)推動了數(shù)字人技術(shù)的發(fā)展,為構(gòu)建更逼真、更具情感表達(dá)力的虛擬人物奠定了堅實的基礎(chǔ)。該框架的開源也方便了更多研究者進(jìn)行進(jìn)一步的研究和應(yīng)用。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。