VLOGGER是一款由谷歌研究團隊開發(fā)的多模態(tài)擴散模型,旨在從單一圖像和音頻樣本生成真實而連貫的人像動態(tài)視頻。它的核心功能在于通過人工智能技術(shù),將靜態(tài)圖片轉(zhuǎn)化為動態(tài)視頻角色,同時保持角色的逼真外觀。此外,VLOGGER能夠根據(jù)音頻控制角色的動作,包括面部表情、嘴唇同步、頭部、目光、眨眼以及身體和手部的手勢,從而將視頻合成的效果提升到新的高度。
VLOGGER是什么
VLOGGER是一個由谷歌研究團隊開發(fā)的多模態(tài)擴散模型,專門從單一輸入圖像和音頻樣本生成逼真的人像動態(tài)視頻。該模型的主要特性在于利用人工智能技術(shù),將一張靜態(tài)圖片變成一個動態(tài)視頻角色,并保持人物的真實外觀。同時,VLOGGER能夠根據(jù)音頻的內(nèi)容來控制角色的動作,不僅限于面部表情和嘴唇的同步,還涵蓋頭部、目光、眨眼以及上身和手部的手勢,極大地提升了音頻驅(qū)動的視頻合成效果。
VLOGGER的官網(wǎng)入口
VLOGGER的主要功能
- 基于圖像和音頻生成視頻:用戶只需提供一張人物圖像和一段音頻,VLOGGER便能生成一個視頻中的角色,其面部表情、嘴唇動作與音頻內(nèi)容完美同步,展現(xiàn)出自然流暢的動態(tài)效果。
- 豐富的多樣性和真實感:VLOGGER生成的視頻展現(xiàn)出高度的多樣性,能展示原始人物的不同動作和表情,同時保持背景的一致性和視頻的真實感。
- 視頻編輯功能:VLOGGER還可以用于現(xiàn)有視頻的編輯,比如改變視頻中角色的表情,使其與原始視頻的未改變像素保持一致。
- 生成會說話的動態(tài)角色:即便沒有視頻中人物的原始素材,VLOGGER也能從一張輸入圖像和音頻生成逼真的說話視頻。
- 視頻翻譯能力:VLOGGER能夠?qū)⒁环N語言的視頻轉(zhuǎn)換為另一種語言,通過編輯唇部和面部區(qū)域以匹配新的音頻,實現(xiàn)跨語言的視頻內(nèi)容適配。
VLOGGER的工作原理
VLOGGER的工作流程主要分為兩個階段,結(jié)合了音頻驅(qū)動的生成和時間連貫的視頻生成。
第一階段:音頻驅(qū)動的生成
- 音頻處理:VLOGGER首先接收一段音頻輸入,可能是語音或音樂。如果輸入是文本,系統(tǒng)會通過文本到語音(TTS)模型將其轉(zhuǎn)換為音頻波形。
- 3D預(yù)測:接下來,系統(tǒng)使用基于變換器(Transformer)架構(gòu)的網(wǎng)絡(luò)處理音頻輸入。該網(wǎng)絡(luò)經(jīng)過訓(xùn)練,能夠預(yù)測與音頻同步的3D面部表情和身體姿勢,并利用多步注意力層捕捉音頻的時間特征,生成一系列3D姿勢參數(shù)。
- 生成控制表示:網(wǎng)絡(luò)輸出一系列預(yù)測的面部表情(θe i)和身體姿勢的殘差(?θb i),這些參數(shù)用于生成控制視頻生成過程的2D表示。
第二階段:時間連貫的視頻生成
- 視頻生成模型:VLOGGER的第二個階段是一個時間擴散模型,它接收第一階段生成的3D控制和一張參考圖像(即輸入的單一人物圖像)。
- 條件化視頻生成:視頻生成模型是一個基于擴散的圖像到圖像翻譯模型,利用預(yù)測的2D控制生成一系列幀,依據(jù)輸入的音頻和3D參數(shù)進行動畫處理。
- 超分辨率提升:為了提高視頻質(zhì)量,VLOGGER還包括一個超分辨率擴散模型,將基礎(chǔ)視頻的分辨率從128×128提升到更高的分辨率,如256×256或512×512。
- 時間延展技術(shù):VLOGGER采用時間延展(temporal outpainting)技術(shù)生成任意長度的視頻,首先生成一定數(shù)量的幀,然后基于前一幀的信息迭代生成新的幀,從而擴展視頻的長度。
數(shù)據(jù)集和訓(xùn)練過程
- VLOGGER在一個名為MENTOR的大規(guī)模數(shù)據(jù)集上進行訓(xùn)練,該數(shù)據(jù)集包含2200個小時和800000個身份,涵蓋了大量身份和動態(tài)手勢。訓(xùn)練過程中,模型學(xué)習(xí)如何根據(jù)3D姿勢參數(shù)和輸入圖像生成連貫的、高質(zhì)量的視頻序列。
應(yīng)用場景
VLOGGER可以廣泛應(yīng)用于社交媒體內(nèi)容創(chuàng)作、在線教育、虛擬會議、游戲開發(fā)以及影視制作等領(lǐng)域,為用戶提供更加生動和有趣的視覺體驗。
常見問題
Q1: VLOGGER支持哪些輸入格式?
A1: VLOGGER支持單張靜態(tài)圖像和音頻文件作為輸入,音頻可以是語音或音樂。
Q2: 生成的視頻質(zhì)量如何?
A2: VLOGGER生成的視頻具有高真實感和多樣性,能夠展示豐富的表情和動作。
Q3: VLOGGER是否可以用于視頻編輯?
A3: 是的,VLOGGER可以用于編輯現(xiàn)有視頻,改變角色的表情等。