AIGC動態歡迎閱讀
原標題:音頻秒生全身虛擬人像,AI完美驅動面部肢體動作!UC伯克利Meta提出Audio2Photoreal
關鍵字:模型,音頻,手勢,身體,動作
文章來源:新智元
內容字數:5832字
內容摘要:
新智元報道編輯:拉燕
【新智元導讀】最近,來自Meta和UC伯克利的研究人員,發布了一種最新的音頻到人像模型。操作簡單,輸出極致逼真。就在最近,Meta和UC伯克利聯合提出了一種全新的虛擬人物形象生成的方法——
直接根據音頻生成全身人像,效果不僅逼真,還能模擬出原音頻中包含的細節,比如手勢、表情、情緒等等。
論文地址:https://arxiv.org/abs/2401.01885
話不多說,直接上圖。
可以看到,人像刷地一下就出來了,十分逼真。
而且從上面的文字對話可以看到,就是在講可以用音頻生成虛擬人像這件事。講者的手勢動作真的像是在做講解。
音頻到Avatar,一步!這個系統不光可以生成全身逼真的形象,人像還會根據二人互動的對話動態做出手勢。
給定語音音頻后,音頻會為一個人輸出多種可能的手勢動作,包括面部、身體和雙手等部位。
Meta表示,方法的關鍵就在于將矢量量化帶來的樣本多樣性優勢與通過擴散獲得的高頻細節相結合,從而生成更具動態和表現力的動作。
研究團隊使用了高度逼真的人像,將生成的可視化。這些頭像可以表達手勢中的關鍵細微差別(如譏笑和傻笑)。
為了促進這一研究方向,M
原文鏈接:音頻秒生全身虛擬人像,AI完美驅動面部肢體動作!UC伯克利Meta提出Audio2Photoreal
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...