DICE-Talk – 復(fù)旦聯(lián)合騰訊優(yōu)圖推出的情感化動(dòng)態(tài)肖像生成框架
DICE-Talk是一個(gè)由復(fù)旦大學(xué)與騰訊優(yōu)圖實(shí)驗(yàn)室共同開(kāi)發(fā)的創(chuàng)新性動(dòng)態(tài)肖像生成框架,旨在生成生動(dòng)情感表達(dá)且身份特征保持一致的動(dòng)態(tài)肖像視頻。通過(guò)引入情感關(guān)聯(lián)增強(qiáng)模塊,DICE-Talk能夠有效捕捉不同情感之間的關(guān)系,顯著提高情感生成的準(zhǔn)確性和多樣性。
DICE-Talk是什么
DICE-Talk是復(fù)旦大學(xué)與騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合推出的一種新型情感化動(dòng)態(tài)肖像生成框架,能夠生成具有生動(dòng)情感表達(dá)并保持身份一致性的動(dòng)態(tài)肖像視頻。該框架通過(guò)情感關(guān)聯(lián)增強(qiáng)模塊,利用情感庫(kù)捕獲情感之間的關(guān)系,從而提升生成情感的準(zhǔn)確性和多樣性。DICE-Talk設(shè)計(jì)了情感判別目標(biāo),確保在生成過(guò)程中情感的一致性。實(shí)驗(yàn)結(jié)果表明,DICE-Talk在MEAD和HDTF數(shù)據(jù)集上在情感準(zhǔn)確性、口型匹配及視覺(jué)質(zhì)量等方面均優(yōu)于現(xiàn)有技術(shù)。
DICE-Talk的主要功能
- 情感化動(dòng)態(tài)肖像生成:基于輸入的音頻和參考圖像,生成具有特定情感表達(dá)的動(dòng)態(tài)肖像視頻。
- 身份保持:在生成過(guò)程中,確保輸入?yún)⒖紙D像的身份特征不被泄露或混淆。
- 高質(zhì)量視頻生成:生成的視頻在視覺(jué)質(zhì)量、唇部同步及情感表達(dá)方面都達(dá)到較高標(biāo)準(zhǔn)。
- 泛化能力:能夠適應(yīng)未見(jiàn)過(guò)的身份和情感組合,體現(xiàn)出良好的泛化能力。
- 用戶控制:用戶可以輸入特定的情感目標(biāo),調(diào)控生成視頻的情感表達(dá),實(shí)現(xiàn)高度的個(gè)性化定制。
- 多模態(tài)輸入:支持多種輸入形式,包括音頻、視頻和參考圖像。
DICE-Talk的技術(shù)原理
- 解耦身份與情感:基于跨模態(tài)注意力機(jī)制聯(lián)合建模音頻和視覺(jué)情感線索,將情感表示為身份無(wú)關(guān)的高斯分布。通過(guò)對(duì)比學(xué)習(xí)(如InfoNCE損失)訓(xùn)練情感嵌入器,確保相同情感的特征在嵌入空間聚集,而不同情感的特征則相對(duì)分散。
- 情感關(guān)聯(lián)增強(qiáng):情感庫(kù)作為可學(xué)習(xí)模塊,存儲(chǔ)多種情感的特征表示。通過(guò)向量量化和基于注意力的特征聚合,學(xué)習(xí)情感之間的關(guān)系,以便更好地生成其他情感。
- 情感判別目標(biāo):在擴(kuò)散模型生成過(guò)程中,通過(guò)情感判別器確保生成視頻的情感一致性。情感判別器與擴(kuò)散模型共同訓(xùn)練,確保生成的視頻在情感表達(dá)上與目標(biāo)情感一致,同時(shí)保持視覺(jué)質(zhì)量和唇部同步。
- 擴(kuò)散模型框架:從高斯噪聲開(kāi)始,逐步去噪生成目標(biāo)視頻?;谧兎肿跃幋a器(VAE)將視頻幀映射至潛在空間,并逐步引入高斯噪聲,通過(guò)擴(kuò)散模型去除噪聲,生成目標(biāo)視頻。在去噪過(guò)程中,擴(kuò)散模型結(jié)合參考圖像、音頻特征和情感特征,引導(dǎo)視頻生成。
DICE-Talk的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://toto222.github.io/DICE-Talk/
- GitHub倉(cāng)庫(kù):https://github.com/toto222/DICE-Talk
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.18087
DICE-Talk的應(yīng)用場(chǎng)景
- 數(shù)字人與虛擬助手:為數(shù)字人和虛擬助手賦予豐富的情感表達(dá),使與用戶的互動(dòng)更加自然和生動(dòng),提升用戶體驗(yàn)。
- 影視制作:在影視特效和動(dòng)畫(huà)制作中,快速生成具有特定情感的動(dòng)態(tài)肖像,從而提高制作效率,降作成本。
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí):在VR/AR應(yīng)用中,生成與用戶情感互動(dòng)的虛擬角色,增強(qiáng)沉浸感和情感共鳴。
- 在線教育與培訓(xùn):制作具有情感反饋的教學(xué)視頻,使學(xué)習(xí)內(nèi)容更加生動(dòng)有趣,提升學(xué)習(xí)效果。
- 心理健康支持:開(kāi)感化虛擬角色,用于心理治療和情感支持,幫助用戶更好地表達(dá)與理解情感。
常見(jiàn)問(wèn)題
- DICE-Talk適合哪些應(yīng)用場(chǎng)景?:DICE-Talk可以廣泛應(yīng)用于數(shù)字人、影視制作、虛擬現(xiàn)實(shí)、在線教育以及心理健康支持等領(lǐng)域。
- 如何確保身份一致性?:DICE-Talk通過(guò)設(shè)計(jì)身份保持機(jī)制,確保生成視頻中參考圖像的身份特征不被泄露或混淆。
- 用戶如何控制生成視頻的情感表達(dá)?:用戶可以通過(guò)輸入特定的情感目標(biāo),來(lái)調(diào)控生成視頻的情感表現(xiàn),實(shí)現(xiàn)個(gè)性化定制。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...