DICE-Talk

DICE-Talk – 復旦聯合騰訊優圖推出的情感化動態肖像生成框架

DICE-Talk

DICE-Talk是一個由復旦大學與騰訊優圖實驗室共同開發的創新性動態肖像生成框架，旨在生成生動情感表達且身份特征保持一致的動態肖像視頻。通過引入情感關聯增強模塊，DICE-Talk能夠有效捕捉不同情感之間的關系，顯著提高情感生成的準確性和多樣性。

DICE-Talk是什么

DICE-Talk是復旦大學與騰訊優圖實驗室聯合推出的一種新型情感化動態肖像生成框架，能夠生成具有生動情感表達并保持身份一致性的動態肖像視頻。該框架通過情感關聯增強模塊，利用情感庫捕獲情感之間的關系，從而提升生成情感的準確性和多樣性。DICE-Talk設計了情感判別目標，確保在生成過程中情感的一致性。實驗結果表明，DICE-Talk在MEAD和HDTF數據集上在情感準確性、口型匹配及視覺質量等方面均優于現有技術。

DICE-Talk的主要功能

情感化動態肖像生成：基于輸入的音頻和參考圖像，生成具有特定情感表達的動態肖像視頻。
身份保持：在生成過程中，確保輸入參考圖像的身份特征不被泄露或混淆。
高質量視頻生成：生成的視頻在視覺質量、唇部同步及情感表達方面都達到較高標準。
泛化能力：能夠適應未見過的身份和情感組合，體現出良好的泛化能力。
用戶控制：用戶可以輸入特定的情感目標，調控生成視頻的情感表達，實現高度的個性化定制。
多模態輸入：支持多種輸入形式，包括音頻、視頻和參考圖像。

DICE-Talk的技術原理

解耦身份與情感：基于跨模態注意力機制聯合建模音頻和視覺情感線索，將情感表示為身份無關的高斯分布。通過對比學習（如InfoNCE損失）訓練情感嵌入器，確保相同情感的特征在嵌入空間聚集，而不同情感的特征則相對分散。
情感關聯增強：情感庫作為可學習模塊，存儲多種情感的特征表示。通過向量量化和基于注意力的特征聚合，學習情感之間的關系，以便更好地生成其他情感。
情感判別目標：在擴散模型生成過程中，通過情感判別器確保生成視頻的情感一致性。情感判別器與擴散模型共同訓練，確保生成的視頻在情感表達上與目標情感一致，同時保持視覺質量和唇部同步。
擴散模型框架：從高斯噪聲開始，逐步去噪生成目標視頻。基于變分自編碼器（VAE）將視頻幀映射至潛在空間，并逐步引入高斯噪聲，通過擴散模型去除噪聲，生成目標視頻。在去噪過程中，擴散模型結合參考圖像、音頻特征和情感特征，引導視頻生成。