谷歌重磅發布零樣本視頻生成模型！效果驚艷，趕超擴散模型？

AIGC動態2年前 (2023)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：谷歌重磅發布零樣本視頻生成模型！效果驚艷，趕超擴散模型？
關鍵字：視頻,模型,文本,圖像,語言
文章來源：夕小瑤科技說
內容字數：1739字

內容摘要：

夕小瑤科技說原創作者 | 王二狗今日，谷歌AI發布了最新的視頻生成模型VideoPoet。
VideoPoet 沒有采用流行的擴散模型架構，其本質上是一種多模態大語言模型，可將任何自回歸語言模型或大語言模型轉換為高質量的視頻生成器。擴散模型能支持的文本到視頻、圖像到視頻等功能，VideoPoet 也都能支持。
VideoPoet 包含一些簡單的組件：
預訓練的 MAGVIT V2 視頻分詞器和 SoundStream 音頻分詞器將可變長度的圖像、視頻和音頻剪輯轉換為統一詞匯表中的離散代碼序列。這些代碼與基于文本的語言模型兼容，有助于與文本等其他模式的集成。
自回歸語言模型跨視頻、圖像、音頻和文本多模態學習，以自回歸預測序列中的下一個視頻或音頻token 。
LLM 訓練框架引入了多模態生成學習目標的混合，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻的inpainting和outpainting操作、視頻風格化和視頻轉語言功能。此外，這些任務可以組合在一起以獲得額外的零樣本功能（例如文本到音頻）。
圖注：VideoPoet模型概述，該模型能夠對各種以視頻為中心的輸入和輸出執

原文鏈接：谷歌重磅發布零樣本視頻生成模型！效果驚艷，趕超擴散模型？