真假難辨!阿里升級(jí)AI人像視頻生成,表情動(dòng)作直逼專業(yè)水準(zhǔn)
你能分實(shí)與虛擬嗎?
原標(biāo)題:真假難辨!阿里升級(jí)AI人像視頻生成,表情動(dòng)作直逼專業(yè)水準(zhǔn)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3335字
阿里巴巴通義實(shí)驗(yàn)室EMO2:基于末端執(zhí)行器的高表現(xiàn)力音頻驅(qū)動(dòng)視頻生成
阿里巴巴通義實(shí)驗(yàn)室近期發(fā)布了EMO2,其是音頻驅(qū)動(dòng)高表現(xiàn)力人像AI視頻生成的升級(jí)版本。不同于以往的音頻驅(qū)動(dòng)視頻生成技術(shù),EMO2 突破性地采用了一種基于“末端執(zhí)行器” (end effector) 的兩階段方案,實(shí)現(xiàn)了更自然流暢、表現(xiàn)力更強(qiáng)的人物視頻生成。
1. 研究背景與挑戰(zhàn)
現(xiàn)有的音頻驅(qū)動(dòng)人物視頻生成技術(shù)在生成自然流暢的動(dòng)作和表情方面存在諸多挑戰(zhàn),尤其是在手部動(dòng)作的生成上。人類身體是一個(gè)復(fù)雜的系統(tǒng),多個(gè)關(guān)節(jié)的耦合關(guān)系難以精確建模,導(dǎo)致生成的肢體動(dòng)作可能不自然或幅度不足。EMO2研究者注意到,在人類活動(dòng)中,手部作為“末端執(zhí)行器”,與音頻信號(hào)的關(guān)聯(lián)性更強(qiáng),因此選擇以此為突破點(diǎn)。
2. EMO2的技術(shù)方案
EMO2 采用兩階段框架:第一階段專注于音頻到手部動(dòng)作的映射。通過DIT模型,利用音頻和手部動(dòng)作之間的強(qiáng)相關(guān)性,生成高表現(xiàn)力、高一致性的手部動(dòng)作。第二階段,使用基于diffusion UNet架構(gòu)的視頻生成模型,以第一階段生成的動(dòng)作表征為引導(dǎo),生成包含真實(shí)面部表情和身體動(dòng)作的視頻幀。值得一提的是,EMO2 提出“具有像素先驗(yàn)知識(shí)的 IK”(Pixels Prior IK),將人體結(jié)構(gòu)知識(shí)融入像素生成,解決逆向?qū)W(IK)可能出現(xiàn)的奇異性問題,提升生成效果。
3. EMO2的優(yōu)勢(shì)與效果
與以往方法相比,EMO2在動(dòng)作生成方面展現(xiàn)出更大的范圍和多樣性,并且與音頻的一致性更強(qiáng)。在視頻生成方面,EMO2生成的視頻在手勢(shì)動(dòng)作的多樣性和手部清晰度上具有顯著優(yōu)勢(shì),人物表情和動(dòng)作更具感染力和專業(yè)水準(zhǔn)。只需提供一張人物肖像圖片和任意長(zhǎng)度的音頻,EMO2就能生物說話、唱歌或進(jìn)行手勢(shì)舞的視頻。
4. 結(jié)論與展望
EMO2 提出了一種基于擴(kuò)散模型的兩階段框架,用于生成與音頻同步的人物視頻,并成功擴(kuò)展了EMO模型的功能,使其能夠生成上半身動(dòng)作。通過將手部作為“末端執(zhí)行器”,EMO2有效解決了音頻驅(qū)動(dòng)人體動(dòng)作生成中的難題,實(shí)現(xiàn)了更自然、更具表現(xiàn)力的人物視頻生成。這項(xiàng)研究為音頻驅(qū)動(dòng)視頻生成技術(shù)提供了新的思路,為虛擬主播、數(shù)字人交互等領(lǐng)域帶來了新的可能性。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)