ECCV 2024 Oral！上交大聯(lián)合網(wǎng)易伏羲開源用于對話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預(yù)告

上海交大計算機(jī)系在讀博士譚帥主講～

原標(biāo)題：ECCV 2024 Oral！上交大聯(lián)合網(wǎng)易伏羲開源用于對話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預(yù)告
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：2898字

高效解耦的可控對話人臉生成：EDTalk框架詳解

本文總結(jié)了上海交通大學(xué)譚帥博士在智猩猩AI新青年講座第262講中關(guān)于高效解耦的可控對話人臉生成框架EDTalk的精彩分享。該框架由上海交通大合網(wǎng)易伏羲共同研發(fā)，并已開源，其論文成果已被ECCV 2024接收并作口頭報告。

1. 對話人臉生成技術(shù)的不足

傳統(tǒng)的說話頭部動畫技術(shù)在模擬人物嘴型和基本表情方面存在局限性，難以精細(xì)控制并實現(xiàn)真實的情感表達(dá)。這限制了其在虛擬人物制作和應(yīng)用中的發(fā)展。

2. EDTalk框架：高效解耦的可控對話人臉生成

EDTalk框架旨在解決上述問題，它通過高效的解耦策略，實現(xiàn)對嘴型、頭部姿勢和情感表達(dá)的控制。該框架的核心在于將面部動態(tài)分解到三個的潛在空間，分別對應(yīng)嘴型、姿勢和表情，每個空間都有一組可學(xué)習(xí)的基向量，其線性組合定義特定的動作。

3. 解耦策略：控制嘴型、姿勢和表情

EDTalk框架的關(guān)鍵創(chuàng)新在于其解耦策略。通過執(zhí)行基向量之間的正交性，并設(shè)計高效的訓(xùn)練策略，確保三個潛在空間的操作，互不干擾。這種設(shè)計不僅提高了控制精度，也加快了訓(xùn)練速度。值得一提的是，該方法無需依賴外部知識，即可賦予每個空間其特定的方向。

4. 音頻動作模塊：音頻驅(qū)動的對話人臉合成

為了實現(xiàn)音頻驅(qū)動的對話人臉合成，EDTalk框架設(shè)計了音頻到動作模塊。該模塊利用學(xué)習(xí)到的基向量庫，將音頻輸入轉(zhuǎn)化為相應(yīng)的嘴型、姿勢和表情動作，從而生成逼真的對話人臉動畫。學(xué)習(xí)到的基向量存儲在相應(yīng)的庫中，實現(xiàn)了與音頻輸入共享視覺先驗。

5. EDTalk框架的優(yōu)勢

EDTalk框架具有以下優(yōu)勢：輕量級模塊設(shè)計，提高了效率；控制不同面部動作，提升了可控性；適應(yīng)不同的輸入模式（視頻或音頻），增強(qiáng)了應(yīng)用性和娛樂性；無需外部知識，簡化了訓(xùn)練過程。

6. 其他相關(guān)工作

譚帥博士還介紹了其團(tuán)隊的其他相關(guān)工作，包括EMMN、Say anything with any style和Style2talker等，這些工作都致力于提升對話人臉生成的質(zhì)量和多樣性，進(jìn)一步豐富了數(shù)字人技術(shù)的研究成果。

7. 總結(jié)

EDTalk框架為對話人臉生成領(lǐng)域帶來了新的突破，其高效的解耦策略和靈活的應(yīng)用性，為虛擬人物的制作和應(yīng)用提供了強(qiáng)大的技術(shù)支持。譚帥博士及其團(tuán)隊的貢獻(xiàn)推動了數(shù)字人技術(shù)的發(fā)展，為構(gòu)建更逼真、更具情感表達(dá)力的虛擬人物奠定了堅實的基礎(chǔ)。該框架的開源也方便了更多研究者進(jìn)行進(jìn)一步的研究和應(yīng)用。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關(guān)注大模型與AI智能體，及時搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動態(tài)# ECCV2024 # 人臉生成 # 對話人臉生成 # 網(wǎng)易伏羲 # 高效解耦框架

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

ECCV 2024 Oral！上交大聯(lián)合網(wǎng)易伏羲開源用于對話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預(yù)告

上海交大計算機(jī)系在讀博士譚帥主講～

高效解耦的可控對話人臉生成：EDTalk框架詳解

1. 對話人臉生成技術(shù)的不足

2. EDTalk框架：高效解耦的可控對話人臉生成

3. 解耦策略：控制嘴型、姿勢和表情

4. 音頻動作模塊：音頻驅(qū)動的對話人臉合成

5. EDTalk框架的優(yōu)勢

6. 其他相關(guān)工作

7. 總結(jié)

聯(lián)系作者

來了！2025 年人工智能的10大預(yù)測，7000字重磅解讀

DeepSeek V3“報錯家門”：我是ChatGPT

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點