音頻秒生全身虛擬人像,AI完美驅(qū)動(dòng)面部肢體動(dòng)作!UC伯克利Meta提出Audio2Photoreal
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:音頻秒生全身虛擬人像,AI完美驅(qū)動(dòng)面部肢體動(dòng)作!UC伯克利Meta提出Audio2Photoreal
關(guān)鍵字:模型,音頻,手勢,身體,動(dòng)作
文章來源:新智元
內(nèi)容字?jǐn)?shù):5832字
內(nèi)容摘要:
新智元報(bào)道編輯:拉燕
【新智元導(dǎo)讀】最近,來自Meta和UC伯克利的研究人員,發(fā)布了一種最新的音頻到人像模型。操作簡單,輸出極致逼真。就在最近,Meta和UC伯克利聯(lián)合提出了一種全新的虛擬人物形象生成的方法——
直接根據(jù)音頻生成全身人像,效果不僅逼真,還能模擬出原音頻中包含的細(xì)節(jié),比如手勢、表情、情緒等等。
論文地址:https://arxiv.org/abs/2401.01885
話不多說,直接上圖。
可以看到,人像刷地一下就出來了,十分逼真。
而且從上面的文字對話可以看到,就是在講可以用音頻生成虛擬人像這件事。講者的手勢動(dòng)作真的像是在做講解。
音頻到Avatar,一步!這個(gè)系統(tǒng)不光可以生成全身逼真的形象,人像還會(huì)根據(jù)二人互動(dòng)的對話動(dòng)態(tài)做出手勢。
給定語音音頻后,音頻會(huì)為一個(gè)人輸出多種可能的手勢動(dòng)作,包括面部、身體和雙手等部位。
Meta表示,方法的關(guān)鍵就在于將矢量量化帶來的樣本多樣性優(yōu)勢與通過擴(kuò)散獲得的高頻細(xì)節(jié)相結(jié)合,從而生成更具動(dòng)態(tài)和表現(xiàn)力的動(dòng)作。
研究團(tuán)隊(duì)使用了高度逼真的人像,將生成的可視化。這些頭像可以表達(dá)手勢中的關(guān)鍵細(xì)微差別(如譏笑和傻笑)。
為了促進(jìn)這一研究方向,M
原文鏈接:音頻秒生全身虛擬人像,AI完美驅(qū)動(dòng)面部肢體動(dòng)作!UC伯克利Meta提出Audio2Photoreal
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。