AIGC動態歡迎閱讀
原標題:一張圖即出AI視頻!谷歌全新擴散模型,讓人物動起來
關鍵字:模型,視頻,圖像,音頻,身體
文章來源:新智元
內容字數:4973字
內容摘要:
新智元報道編輯:alan
【新智元導讀】近日,來自谷歌的研究人員發布了多模態擴散模型VLOGGER,只需一張照片,和一段音頻,就能直接生物說話的視頻!只需一張照片,和一段音頻,就能直接生物說話的視頻!
近日,來自谷歌的研究人員發布了多模態擴散模型VLOGGER,讓我們朝著虛擬數字人又邁進了一步。
論文地址:https://enriccorona.github.io/vlogger/paper.pdf
VLOGGER接收單個輸入圖像,使用文本或者音頻驅動,生類說話的視頻,包括口型、表情、肢體動作等都非常自然。
我們先來看幾個例子:如果感覺視頻使用別人的聲音有點違和,小編幫你關掉聲音:
可以看出整個生成的效果是非常優雅自然的。
VLOGGER建立在最近生成擴散模型的成功之上,包括一個將人類轉成3D的模型,以及一個基于擴散的新架構,用于通過時間和空間控制,增強文本生成圖像的效果。
VLOGGER可以生成可變長度的高質量視頻,并且這些視頻可以通過人臉和身體的高級表示輕松控制。
比如我們可以讓生成視頻中的人閉上嘴:
或者閉上雙眼:
與之前的同類模型相比,VLOGGER不需要針對
原文鏈接:一張圖即出AI視頻!谷歌全新擴散模型,讓人物動起來
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...