讓Sora東京女郎唱歌、高啟強(qiáng)變聲羅翔,阿里人物口型視頻生成絕了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:讓Sora東京女郎唱歌、高啟強(qiáng)變聲羅翔,阿里人物口型視頻生成絕了
關(guān)鍵字:視頻,音頻,方法,面部,角色
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5512字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部有了阿里的 EMO,AI 生成或真實(shí)的圖像「動(dòng)起來(lái)說(shuō)話(huà)或唱歌」變得更容易了。
最近,以 OpenAI Sora 為代表的文生視頻模型又火了起來(lái)。
而除了文本生成視頻之外,以人為中心的視頻合成也一直是研究的焦點(diǎn),比如專(zhuān)注于說(shuō)話(huà)人頭部(Talking Head)的視頻生成,它的目標(biāo)是根據(jù)用戶(hù)提供的音頻片段來(lái)生成面部表情。
從技術(shù)上來(lái)看,生成表情需要捕獲說(shuō)話(huà)人微妙和多樣化的面部動(dòng)作,由此對(duì)此類(lèi)視頻合成任務(wù)提出了重大挑戰(zhàn)。
傳統(tǒng)方法通常會(huì)對(duì)最終的視頻輸出施加限制,以簡(jiǎn)化任務(wù)。比如,一些方法使用 3D 模型來(lái)限制面部關(guān)鍵點(diǎn), 另一些方法則從原始視頻中提取頭部的序列以指導(dǎo)整體。這些限制雖然降低了視頻生成的復(fù)雜性,但也往往限制了最終面部表情的豐富度和自然度。
在阿里智能計(jì)算研究院近日的一篇論文中,研究者通過(guò)關(guān)注音頻提示和面部動(dòng)作之間的動(dòng)態(tài)和細(xì)微聯(lián)系,來(lái)增強(qiáng)說(shuō)話(huà)人頭部視頻生成的真實(shí)度、自然度和表現(xiàn)力。
研究者發(fā)現(xiàn),傳統(tǒng)方法往往無(wú)法捕捉完整范圍的說(shuō)話(huà)人表情和不同說(shuō)話(huà)人獨(dú)特的面部風(fēng)格。基于此,他們提出了 EMO(全稱(chēng)為 Emote Portrait Alive)框架,該
原文鏈接:讓Sora東京女郎唱歌、高啟強(qiáng)變聲羅翔,阿里人物口型視頻生成絕了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)