VLOGGER

AI工具1年前 (2024)發布 AI工具集

VLOGGER是一款由谷歌研究團隊開發的多模態擴散模型，旨在從單一圖像和音頻樣本生成真實而連貫的人像動態視頻。它的核心功能在于通過人工智能技術，將靜態圖片轉化為動態視頻角色，同時保持角色的逼真外觀。此外，VLOGGER能夠根據音頻控制角色的動作，包括面部表情、嘴唇同步、頭部、目光、眨眼以及身體和手部的手勢，從而將視頻合成的效果提升到新的高度。

VLOGGER是什么

VLOGGER是一個由谷歌研究團隊開發的多模態擴散模型，專門從單一輸入圖像和音頻樣本生成逼真的人像動態視頻。該模型的主要特性在于利用人工智能技術，將一張靜態圖片變成一個動態視頻角色，并保持人物的真實外觀。同時，VLOGGER能夠根據音頻的內容來控制角色的動作，不僅限于面部表情和嘴唇的同步，還涵蓋頭部、目光、眨眼以及上身和手部的手勢，極大地提升了音頻驅動的視頻合成效果。

VLOGGER

VLOGGER的官網入口

官方項目主頁：https://enriccorona.github.io/vlogger/
arXiv研究論文：https://arxiv.org/abs/2403.08764v1

VLOGGER的主要功能

基于圖像和音頻生成視頻：用戶只需提供一張人物圖像和一段音頻，VLOGGER便能生成一個視頻中的角色，其面部表情、嘴唇動作與音頻內容完美同步，展現出自然流暢的動態效果。
豐富的多樣性和真實感：VLOGGER生成的視頻展現出高度的多樣性，能展示原始人物的不同動作和表情，同時保持背景的一致性和視頻的真實感。
視頻編輯功能：VLOGGER還可以用于現有視頻的編輯，比如改變視頻中角色的表情，使其與原始視頻的未改變像素保持一致。
生成會說話的動態角色：即便沒有視頻中人物的原始素材，VLOGGER也能從一張輸入圖像和音頻生成逼真的說話視頻。
視頻翻譯能力：VLOGGER能夠將一種語言的視頻轉換為另一種語言，通過編輯唇部和面部區域以匹配新的音頻，實現跨語言的視頻內容適配。

VLOGGER的工作原理

VLOGGER的工作流程主要分為兩個階段，結合了音頻驅動的生成和時間連貫的視頻生成。

VLOGGER

第一階段：音頻驅動的生成

音頻處理：VLOGGER首先接收一段音頻輸入，可能是語音或音樂。如果輸入是文本，系統會通過文本到語音（TTS）模型將其轉換為音頻波形。
3D預測：接下來，系統使用基于變換器（Transformer）架構的網絡處理音頻輸入。該網絡經過訓練，能夠預測與音頻同步的3D面部表情和身體姿勢，并利用多步注意力層捕捉音頻的時間特征，生成一系列3D姿勢參數。
生成控制表示：網絡輸出一系列預測的面部表情（θe i）和身體姿勢的殘差（?θb i），這些參數用于生成控制視頻生成過程的2D表示。

第二階段：時間連貫的視頻生成

視頻生成模型：VLOGGER的第二個階段是一個時間擴散模型，它接收第一階段生成的3D控制和一張參考圖像（即輸入的單一人物圖像）。
條件化視頻生成：視頻生成模型是一個基于擴散的圖像到圖像翻譯模型，利用預測的2D控制生成一系列幀，依據輸入的音頻和3D參數進行動畫處理。
超分辨率提升：為了提高視頻質量，VLOGGER還包括一個超分辨率擴散模型，將基礎視頻的分辨率從128×128提升到更高的分辨率，如256×256或512×512。
時間延展技術：VLOGGER采用時間延展（temporal outpainting）技術生成任意長度的視頻，首先生成一定數量的幀，然后基于前一幀的信息迭代生成新的幀，從而擴展視頻的長度。