DICE-Talk – 復旦聯合騰訊優圖推出的情感化動態肖像生成框架
DICE-Talk是一個由復旦大學與騰訊優圖實驗室共同開發的創新性動態肖像生成框架,旨在生成生動情感表達且身份特征保持一致的動態肖像視頻。通過引入情感關聯增強模塊,DICE-Talk能夠有效捕捉不同情感之間的關系,顯著提高情感生成的準確性和多樣性。
DICE-Talk是什么
DICE-Talk是復旦大學與騰訊優圖實驗室聯合推出的一種新型情感化動態肖像生成框架,能夠生成具有生動情感表達并保持身份一致性的動態肖像視頻。該框架通過情感關聯增強模塊,利用情感庫捕獲情感之間的關系,從而提升生成情感的準確性和多樣性。DICE-Talk設計了情感判別目標,確保在生成過程中情感的一致性。實驗結果表明,DICE-Talk在MEAD和HDTF數據集上在情感準確性、口型匹配及視覺質量等方面均優于現有技術。
DICE-Talk的主要功能
- 情感化動態肖像生成:基于輸入的音頻和參考圖像,生成具有特定情感表達的動態肖像視頻。
- 身份保持:在生成過程中,確保輸入參考圖像的身份特征不被泄露或混淆。
- 高質量視頻生成:生成的視頻在視覺質量、唇部同步及情感表達方面都達到較高標準。
- 泛化能力:能夠適應未見過的身份和情感組合,體現出良好的泛化能力。
- 用戶控制:用戶可以輸入特定的情感目標,調控生成視頻的情感表達,實現高度的個性化定制。
- 多模態輸入:支持多種輸入形式,包括音頻、視頻和參考圖像。
DICE-Talk的技術原理
- 解耦身份與情感:基于跨模態注意力機制聯合建模音頻和視覺情感線索,將情感表示為身份無關的高斯分布。通過對比學習(如InfoNCE損失)訓練情感嵌入器,確保相同情感的特征在嵌入空間聚集,而不同情感的特征則相對分散。
- 情感關聯增強:情感庫作為可學習模塊,存儲多種情感的特征表示。通過向量量化和基于注意力的特征聚合,學習情感之間的關系,以便更好地生成其他情感。
- 情感判別目標:在擴散模型生成過程中,通過情感判別器確保生成視頻的情感一致性。情感判別器與擴散模型共同訓練,確保生成的視頻在情感表達上與目標情感一致,同時保持視覺質量和唇部同步。
- 擴散模型框架:從高斯噪聲開始,逐步去噪生成目標視頻。基于變分自編碼器(VAE)將視頻幀映射至潛在空間,并逐步引入高斯噪聲,通過擴散模型去除噪聲,生成目標視頻。在去噪過程中,擴散模型結合參考圖像、音頻特征和情感特征,引導視頻生成。
DICE-Talk的項目地址
- 項目官網:https://toto222.github.io/DICE-Talk/
- GitHub倉庫:https://github.com/toto222/DICE-Talk
- arXiv技術論文:https://arxiv.org/pdf/2504.18087
DICE-Talk的應用場景
- 數字人與虛擬助手:為數字人和虛擬助手賦予豐富的情感表達,使與用戶的互動更加自然和生動,提升用戶體驗。
- 影視制作:在影視特效和動畫制作中,快速生成具有特定情感的動態肖像,從而提高制作效率,降作成本。
- 虛擬現實與增強現實:在VR/AR應用中,生成與用戶情感互動的虛擬角色,增強沉浸感和情感共鳴。
- 在線教育與培訓:制作具有情感反饋的教學視頻,使學習內容更加生動有趣,提升學習效果。
- 心理健康支持:開感化虛擬角色,用于心理治療和情感支持,幫助用戶更好地表達與理解情感。
常見問題
- DICE-Talk適合哪些應用場景?:DICE-Talk可以廣泛應用于數字人、影視制作、虛擬現實、在線教育以及心理健康支持等領域。
- 如何確保身份一致性?:DICE-Talk通過設計身份保持機制,確保生成視頻中參考圖像的身份特征不被泄露或混淆。
- 用戶如何控制生成視頻的情感表達?:用戶可以通過輸入特定的情感目標,來調控生成視頻的情感表現,實現個性化定制。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...