谷歌發(fā)布“Vlogger”模型:?jiǎn)螐垐D片生成10秒視頻
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌發(fā)布“Vlogger”模型:?jiǎn)螐垐D片生成10秒視頻
關(guān)鍵字:騰訊,視頻,模型,圖像,動(dòng)作
文章來源:量子位
內(nèi)容字?jǐn)?shù):3344字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI谷歌發(fā)布了一個(gè)新的視頻框架:
只需要一張你的頭像、一段講話錄音,就能得到一個(gè)本人栩栩如生的演講視頻。視頻時(shí)長(zhǎng)可變,目前看到的示例最高為10s。
可以看到,無論是口型還是面部表情,它都非常自然。
如果輸入圖像囊括整個(gè)上半身,它也能配合豐富的手勢(shì):
網(wǎng)友看完就表示:
有了它,以后咱開線上視頻會(huì)議再也不需要整理好發(fā)型、穿好衣服再去了。
嗯,拍一張肖像,錄好演講音頻就可以(手動(dòng)狗頭)
用聲音控制肖像生成視頻這個(gè)框架名叫VLOGGER。
它主要基于擴(kuò)散模型,并包含兩部分:
一個(gè)是隨機(jī)的人體到3D(human-to-3d-motion)擴(kuò)散模型。
另一個(gè)是用于增強(qiáng)文本到圖像模型的新擴(kuò)散架構(gòu)。
其中,前者負(fù)責(zé)將音頻波形作為輸入,生物的身體控制動(dòng)作,包括眼神、表情和手勢(shì)、身體整體姿勢(shì)等等。
后者則是一個(gè)時(shí)間維度的圖像到圖像模型,用于擴(kuò)展大型圖像擴(kuò)散模型,使用剛剛預(yù)測(cè)的動(dòng)作來生成相應(yīng)的幀。
為了使結(jié)果符合特定的人物形象,VLOGGER還將參數(shù)圖像的po作為輸入。
VLOGGER的訓(xùn)練是在一個(gè)超大的數(shù)據(jù)集(名叫MENTOR)上完成的。
有多大
原文鏈接:谷歌發(fā)布“Vlogger”模型:?jiǎn)螐垐D片生成10秒視頻
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破