AIGC動態歡迎閱讀
原標題:谷歌發布“Vlogger”模型:單張圖片生成10秒視頻
關鍵字:騰訊,視頻,模型,圖像,動作
文章來源:量子位
內容字數:3344字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI谷歌發布了一個新的視頻框架:
只需要一張你的頭像、一段講話錄音,就能得到一個本人栩栩如生的演講視頻。視頻時長可變,目前看到的示例最高為10s。
可以看到,無論是口型還是面部表情,它都非常自然。
如果輸入圖像囊括整個上半身,它也能配合豐富的手勢:
網友看完就表示:
有了它,以后咱開線上視頻會議再也不需要整理好發型、穿好衣服再去了。
嗯,拍一張肖像,錄好演講音頻就可以(手動狗頭)
用聲音控制肖像生成視頻這個框架名叫VLOGGER。
它主要基于擴散模型,并包含兩部分:
一個是隨機的人體到3D(human-to-3d-motion)擴散模型。
另一個是用于增強文本到圖像模型的新擴散架構。
其中,前者負責將音頻波形作為輸入,生物的身體控制動作,包括眼神、表情和手勢、身體整體姿勢等等。
后者則是一個時間維度的圖像到圖像模型,用于擴展大型圖像擴散模型,使用剛剛預測的動作來生成相應的幀。
為了使結果符合特定的人物形象,VLOGGER還將參數圖像的po作為輸入。
VLOGGER的訓練是在一個超大的數據集(名叫MENTOR)上完成的。
有多大
原文鏈接:谷歌發布“Vlogger”模型:單張圖片生成10秒視頻
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...