真假難辨！阿里升級AI人像視頻生成，表情動作直逼專業(yè)水準(zhǔn)

你能分實與虛擬嗎？

原標(biāo)題：真假難辨！阿里升級AI人像視頻生成，表情動作直逼專業(yè)水準(zhǔn)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3335字

阿里巴巴通義實驗室EMO2：基于末端執(zhí)行器的高表現(xiàn)力音頻驅(qū)動視頻生成

阿里巴巴通義實驗室近期發(fā)布了EMO2，其是音頻驅(qū)動高表現(xiàn)力人像AI視頻生成的升級版本。不同于以往的音頻驅(qū)動視頻生成技術(shù)，EMO2 突破性地采用了一種基于“末端執(zhí)行器” (end effector) 的兩階段方案，實現(xiàn)了更自然流暢、表現(xiàn)力更強(qiáng)的人物視頻生成。

1. 研究背景與挑戰(zhàn)

現(xiàn)有的音頻驅(qū)動人物視頻生成技術(shù)在生成自然流暢的動作和表情方面存在諸多挑戰(zhàn)，尤其是在手部動作的生成上。人類身體是一個復(fù)雜的系統(tǒng)，多個關(guān)節(jié)的耦合關(guān)系難以精確建模，導(dǎo)致生成的肢體動作可能不自然或幅度不足。EMO2研究者注意到，在人類活動中，手部作為“末端執(zhí)行器”，與音頻信號的關(guān)聯(lián)性更強(qiáng)，因此選擇以此為突破點。

2. EMO2的技術(shù)方案

EMO2 采用兩階段框架：第一階段專注于音頻到手部動作的映射。通過DIT模型，利用音頻和手部動作之間的強(qiáng)相關(guān)性，生成高表現(xiàn)力、高一致性的手部動作。第二階段，使用基于diffusion UNet架構(gòu)的視頻生成模型，以第一階段生成的動作表征為引導(dǎo)，生成包含真實面部表情和身體動作的視頻幀。值得一提的是，EMO2 提出“具有像素先驗知識的 IK”（Pixels Prior IK），將人體結(jié)構(gòu)知識融入像素生成，解決逆向?qū)W（IK）可能出現(xiàn)的奇異性問題，提升生成效果。

3. EMO2的優(yōu)勢與效果

與以往方法相比，EMO2在動作生成方面展現(xiàn)出更大的范圍和多樣性，并且與音頻的一致性更強(qiáng)。在視頻生成方面，EMO2生成的視頻在手勢動作的多樣性和手部清晰度上具有顯著優(yōu)勢，人物表情和動作更具感染力和專業(yè)水準(zhǔn)。只需提供一張人物肖像圖片和任意長度的音頻，EMO2就能生物說話、唱歌或進(jìn)行手勢舞的視頻。

4. 結(jié)論與展望

EMO2 提出了一種基于擴(kuò)散模型的兩階段框架，用于生成與音頻同步的人物視頻，并成功擴(kuò)展了EMO模型的功能，使其能夠生成上半身動作。通過將手部作為“末端執(zhí)行器”，EMO2有效解決了音頻驅(qū)動人體動作生成中的難題，實現(xiàn)了更自然、更具表現(xiàn)力的人物視頻生成。這項研究為音頻驅(qū)動視頻生成技術(shù)提供了新的思路，為虛擬主播、數(shù)字人交互等領(lǐng)域帶來了新的可能性。