WorldDreamer：突破想象的世界模型，創造超長視頻體驗

WorldDreamer是一款基于Transformer架構的通用世界模型，旨在深入理解和預測物理世界的變遷與規律，顯著提升視頻生成的能力。它能夠處理多種視頻生成任務，包括圖像轉視頻、文本轉視頻、視頻編輯和動作序列視頻生成等，尤其在自然場景和自動駕駛環境中表現出色。

WorldDreamer是什么

WorldDreamer是一個創新的通用世界模型，利用Transformer架構來理解和預測物理世界的變化與規律，增強視頻生成的能力。該模型可以完成多種視頻生成任務，適用于自然場景及自動駕駛的應用。通過將視覺輸入映射為離散標記并預測被遮蔽的標記，WorldDreamer結合多模態提示以促進內部交互。實驗結果表明，WorldDreamer在生成不同場景中的視頻時表現優異，展現了其在文本到視頻轉換、圖像到視頻合成和視頻編輯等任務中的多樣性。

WorldDreamer的主要功能

圖像轉視頻（Image to Video）：通過處理單一圖像，預測未來的視頻幀，視其他視頻幀為被掩蔽的視覺Token，從而生成高質量且連貫的視頻內容。
文本轉視頻（Text to Video）：僅依賴于語言文本輸入，WorldDreamer可以預測相應的視頻，假設所有視覺標記都被屏蔽，從而生成符合文本描述的視頻。
視頻修改（Video Inpainting）：在已有視頻上指定需要修改的區域，通過語言輸入調整被遮蔽區域的內容，實現局部視頻修改與內容替換。
視頻風格化（Video Stylization）：輸入視頻段并隨機遮蔽某些像素，WorldDreamer能夠根據語言輸入改變視頻風格，創造特定的主題效果。
基于動作合成視頻（Action to Video）：在自動駕駛場景中，根據初始幀和后續駕駛指令，WorldDreamer預測未來的視頻幀，生成符合駕駛動作的視頻。

WorldDreamer的技術原理

視覺Token化：通過VQGAN將圖像和視頻編碼為離散的視覺Token，使連續視覺信號能夠被模型處理。
Transformer架構：基于Transformer架構，WorldDreamer構建了一種通用的世界模型，旨在理解和預測視覺信號中的動態和物理規律。
時空補丁Transformer (STPT)：為應對視頻信號的時空特性，WorldDreamer引入STPT，使注意力集中在時空窗口內的局部補丁上，從而加速對視覺動態的學習。
多模態提示：通過交叉注意力機制整合語言和動作信號，WorldDreamer構建多模態提示，促進在世界模型內的有效交互。
預測被掩蓋的視覺Token：WorldDreamer將世界建模框架轉變為一個無監督的視覺Token預測問題，通過預測被遮蔽的視覺Token捕捉視覺數據中的潛在和物理規律。
并行解碼視頻：與以擴散為基礎的方法相比，WorldDreamer展現了卓越的解碼速度，只需數次迭代即可并行解碼視頻，速度約為擴散方法的三倍。
無監督學習：支持無監督學習，WorldDreamer通過預測被遮蔽的視覺Token進行訓練，無需額外的監督信號。

WorldDreamer的項目地址

項目官網：world-dreamer.github.io
Github倉庫：https://github.com/JeffWang987/WorldDreamer
arXiv技術論文：https://arxiv.org/pdf/2401.09985

WorldDreamer的應用場景

自然場景視頻生成：WorldDreamer能夠根據自然場景的圖像或文本描述生成相應的視頻內容，適用于模擬和展示多種自然風光和動物行為。
駕駛環境視頻生成：在自動駕駛領域，WorldDreamer可根據駕駛動作或初始幀生成后續視頻，模擬不同駕駛策略下的車輛，為自動駕駛技術提供重要的模擬訓練數據。
視頻編輯：支持視頻的修復與修改，用戶可根據語言輸入指定區域進行內容更改，以確保視頻與用戶描述的高度一致，實現精細化編輯。
圖像到視頻合成：WorldDreamer能夠從單一圖像中預測未來的幀，實現高質量視頻的生成，呈現出如電影般流暢的效果，同時保持原始圖像的一致性。
文本到視頻生成：通過文本內容生成視頻，實現語言與視頻內容的完美結合，用戶可根據語言輸入自定義視頻內容、風格和鏡頭。

閱讀原文