真假難辨!阿里升級AI人像視頻生成,表情動作直逼專業(yè)水準(zhǔn)
你能分實與虛擬嗎?
原標(biāo)題:真假難辨!阿里升級AI人像視頻生成,表情動作直逼專業(yè)水準(zhǔn)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3335字
阿里巴巴通義實驗室EMO2:基于末端執(zhí)行器的高表現(xiàn)力音頻驅(qū)動視頻生成
阿里巴巴通義實驗室近期發(fā)布了EMO2,其是音頻驅(qū)動高表現(xiàn)力人像AI視頻生成的升級版本。不同于以往的音頻驅(qū)動視頻生成技術(shù),EMO2 突破性地采用了一種基于“末端執(zhí)行器” (end effector) 的兩階段方案,實現(xiàn)了更自然流暢、表現(xiàn)力更強(qiáng)的人物視頻生成。
1. 研究背景與挑戰(zhàn)
現(xiàn)有的音頻驅(qū)動人物視頻生成技術(shù)在生成自然流暢的動作和表情方面存在諸多挑戰(zhàn),尤其是在手部動作的生成上。人類身體是一個復(fù)雜的系統(tǒng),多個關(guān)節(jié)的耦合關(guān)系難以精確建模,導(dǎo)致生成的肢體動作可能不自然或幅度不足。EMO2研究者注意到,在人類活動中,手部作為“末端執(zhí)行器”,與音頻信號的關(guān)聯(lián)性更強(qiáng),因此選擇以此為突破點。
2. EMO2的技術(shù)方案
EMO2 采用兩階段框架:第一階段專注于音頻到手部動作的映射。通過DIT模型,利用音頻和手部動作之間的強(qiáng)相關(guān)性,生成高表現(xiàn)力、高一致性的手部動作。第二階段,使用基于diffusion UNet架構(gòu)的視頻生成模型,以第一階段生成的動作表征為引導(dǎo),生成包含真實面部表情和身體動作的視頻幀。值得一提的是,EMO2 提出“具有像素先驗知識的 IK”(Pixels Prior IK),將人體結(jié)構(gòu)知識融入像素生成,解決逆向?qū)W(IK)可能出現(xiàn)的奇異性問題,提升生成效果。
3. EMO2的優(yōu)勢與效果
與以往方法相比,EMO2在動作生成方面展現(xiàn)出更大的范圍和多樣性,并且與音頻的一致性更強(qiáng)。在視頻生成方面,EMO2生成的視頻在手勢動作的多樣性和手部清晰度上具有顯著優(yōu)勢,人物表情和動作更具感染力和專業(yè)水準(zhǔn)。只需提供一張人物肖像圖片和任意長度的音頻,EMO2就能生物說話、唱歌或進(jìn)行手勢舞的視頻。
4. 結(jié)論與展望
EMO2 提出了一種基于擴(kuò)散模型的兩階段框架,用于生成與音頻同步的人物視頻,并成功擴(kuò)展了EMO模型的功能,使其能夠生成上半身動作。通過將手部作為“末端執(zhí)行器”,EMO2有效解決了音頻驅(qū)動人體動作生成中的難題,實現(xiàn)了更自然、更具表現(xiàn)力的人物視頻生成。這項研究為音頻驅(qū)動視頻生成技術(shù)提供了新的思路,為虛擬主播、數(shù)字人交互等領(lǐng)域帶來了新的可能性。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺