谷歌發(fā)布“Vlogger”模型：?jiǎn)螐垐D片生成10秒視頻

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：谷歌發(fā)布“Vlogger”模型：?jiǎn)螐垐D片生成10秒視頻
關(guān)鍵字：騰訊,視頻,模型,圖像,動(dòng)作
文章來源：量子位
內(nèi)容字?jǐn)?shù)：3344字

內(nèi)容摘要：

豐色發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI谷歌發(fā)布了一個(gè)新的視頻框架：
只需要一張你的頭像、一段講話錄音，就能得到一個(gè)本人栩栩如生的演講視頻。視頻時(shí)長(zhǎng)可變，目前看到的示例最高為10s。
可以看到，無論是口型還是面部表情，它都非常自然。
如果輸入圖像囊括整個(gè)上半身，它也能配合豐富的手勢(shì)：
網(wǎng)友看完就表示：
有了它，以后咱開線上視頻會(huì)議再也不需要整理好發(fā)型、穿好衣服再去了。
嗯，拍一張肖像，錄好演講音頻就可以（手動(dòng)狗頭）
用聲音控制肖像生成視頻這個(gè)框架名叫VLOGGER。
它主要基于擴(kuò)散模型，并包含兩部分：
一個(gè)是隨機(jī)的人體到3D（human-to-3d-motion）擴(kuò)散模型。
另一個(gè)是用于增強(qiáng)文本到圖像模型的新擴(kuò)散架構(gòu)。
其中，前者負(fù)責(zé)將音頻波形作為輸入，生物的身體控制動(dòng)作，包括眼神、表情和手勢(shì)、身體整體姿勢(shì)等等。
后者則是一個(gè)時(shí)間維度的圖像到圖像模型，用于擴(kuò)展大型圖像擴(kuò)散模型，使用剛剛預(yù)測(cè)的動(dòng)作來生成相應(yīng)的幀。
為了使結(jié)果符合特定的人物形象，VLOGGER還將參數(shù)圖像的po作為輸入。
VLOGGER的訓(xùn)練是在一個(gè)超大的數(shù)據(jù)集（名叫MENTOR）上完成的。
有多大

原文鏈接：谷歌發(fā)布“Vlogger”模型：?jiǎn)螐垐D片生成10秒視頻