AIGC動態歡迎閱讀
原標題:谷歌重磅發布零樣本視頻生成模型!效果驚艷,趕超擴散模型?
關鍵字:視頻,模型,文本,圖像,語言
文章來源:夕小瑤科技說
內容字數:1739字
內容摘要:
夕小瑤科技說 原創作者 | 王二狗今日,谷歌AI發布了最新的視頻生成模型VideoPoet。
VideoPoet 沒有采用流行的擴散模型架構,其本質上是一種多模態大語言模型,可將任何自回歸語言模型或大語言模型轉換為高質量的視頻生成器。擴散模型能支持的文本到視頻、圖像到視頻等功能,VideoPoet 也都能支持。
VideoPoet 包含一些簡單的組件:
預訓練的 MAGVIT V2 視頻分詞器和 SoundStream 音頻分詞器將可變長度的圖像、視頻和音頻剪輯轉換為統一詞匯表中的離散代碼序列。這些代碼與基于文本的語言模型兼容,有助于與文本等其他模式的集成。
自回歸語言模型跨視頻、圖像、音頻和文本多模態學習,以自回歸預測序列中的下一個視頻或音頻token 。
LLM 訓練框架引入了多模態生成學習目標的混合,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻的inpainting和outpainting操作、視頻風格化和視頻轉語言功能。此外,這些任務可以組合在一起以獲得額外的零樣本功能(例如文本到音頻)。
圖注:VideoPoet模型概述,該模型能夠對各種以視頻為中心的輸入和輸出執
原文鏈接:谷歌重磅發布零樣本視頻生成模型!效果驚艷,趕超擴散模型?
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...