<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        WorldDreamer:突破想象的世界模型,創造超長視頻體驗

        AI工具10個月前發布 AI工具集
        763 0 0

        WorldDreamer是一款基于Transformer架構的通用世界模型,旨在深入理解和預測物理世界的變遷與規律,顯著提升視頻生成的能力。它能夠處理多種視頻生成任務,包括圖像轉視頻、文本轉視頻、視頻編輯和動作序列視頻生成等,尤其在自然場景和自動駕駛環境中表現出色。

        WorldDreamer是什么

        WorldDreamer是一個創新的通用世界模型,利用Transformer架構來理解和預測物理世界的變化與規律,增強視頻生成的能力。該模型可以完成多種視頻生成任務,適用于自然場景及自動駕駛的應用。通過將視覺輸入映射為離散標記并預測被遮蔽的標記,WorldDreamer結合多模態提示以促進內部交互。實驗結果表明,WorldDreamer在生成不同場景中的視頻時表現優異,展現了其在文本到視頻轉換、圖像到視頻合成和視頻編輯等任務中的多樣性。

        WorldDreamer:突破想象的世界模型,創造超長視頻體驗

        WorldDreamer的主要功能

        • 圖像轉視頻(Image to Video):通過處理單一圖像,預測未來的視頻幀,視其他視頻幀為被掩蔽的視覺Token,從而生成高質量且連貫的視頻內容。
        • 文本轉視頻(Text to Video):僅依賴于語言文本輸入,WorldDreamer可以預測相應的視頻,假設所有視覺標記都被屏蔽,從而生成符合文本描述的視頻。
        • 視頻修改(Video Inpainting):在已有視頻上指定需要修改的區域,通過語言輸入調整被遮蔽區域的內容,實現局部視頻修改與內容替換。
        • 視頻風格化(Video Stylization):輸入視頻段并隨機遮蔽某些像素,WorldDreamer能夠根據語言輸入改變視頻風格,創造特定的主題效果。
        • 基于動作合成視頻(Action to Video):在自動駕駛場景中,根據初始幀和后續駕駛指令,WorldDreamer預測未來的視頻幀,生成符合駕駛動作的視頻。

        WorldDreamer的技術原理

        • 視覺Token化:通過VQGAN將圖像和視頻編碼為離散的視覺Token,使連續視覺信號能夠被模型處理。
        • Transformer架構:基于Transformer架構,WorldDreamer構建了一種通用的世界模型,旨在理解和預測視覺信號中的動態和物理規律。
        • 時空補丁Transformer (STPT):為應對視頻信號的時空特性,WorldDreamer引入STPT,使注意力集中在時空窗口內的局部補丁上,從而加速對視覺動態的學習。
        • 多模態提示:通過交叉注意力機制整合語言和動作信號,WorldDreamer構建多模態提示,促進在世界模型內的有效交互。
        • 預測被掩蓋的視覺Token:WorldDreamer將世界建模框架轉變為一個無監督的視覺Token預測問題,通過預測被遮蔽的視覺Token捕捉視覺數據中的潛在和物理規律。
        • 并行解碼視頻:與以擴散為基礎的方法相比,WorldDreamer展現了卓越的解碼速度,只需數次迭代即可并行解碼視頻,速度約為擴散方法的三倍。
        • 無監督學習:支持無監督學習,WorldDreamer通過預測被遮蔽的視覺Token進行訓練,無需額外的監督信號。

        WorldDreamer的項目地址

        WorldDreamer的應用場景

        • 自然場景視頻生成:WorldDreamer能夠根據自然場景的圖像或文本描述生成相應的視頻內容,適用于模擬和展示多種自然風光和動物行為。
        • 駕駛環境視頻生成:在自動駕駛領域,WorldDreamer可根據駕駛動作或初始幀生成后續視頻,模擬不同駕駛策略下的車輛,為自動駕駛技術提供重要的模擬訓練數據。
        • 視頻編輯:支持視頻的修復與修改,用戶可根據語言輸入指定區域進行內容更改,以確保視頻與用戶描述的高度一致,實現精細化編輯。
        • 圖像到視頻合成:WorldDreamer能夠從單一圖像中預測未來的幀,實現高質量視頻的生成,呈現出如電影般流暢的效果,同時保持原始圖像的一致性。
        • 文本到視頻生成:通過文本內容生成視頻,實現語言與視頻內容的完美結合,用戶可根據語言輸入自定義視頻內容、風格和鏡頭。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 一本色道久久综合亚洲精品蜜桃冫 | 曰批免费视频播放免费| 成人无码区免费A片视频WWW| 亚洲精品成人av在线| 一个人看的www免费视频在线观看| 亚洲熟妇av一区二区三区| a级成人毛片免费图片| 日本亚洲成高清一区二区三区| 国产在线精品观看免费观看| 国产偷国产偷亚洲高清日韩 | 日韩免费电影网址| 亚洲av不卡一区二区三区 | 亚洲日韩国产欧美一区二区三区 | 在线观看成人免费视频| www亚洲精品久久久乳| 亚洲色偷偷狠狠综合网| 东方aⅴ免费观看久久av| 91亚洲国产在人线播放午夜| 午夜国产精品免费观看| 亚洲国产精品ⅴa在线观看| 亚洲国产综合精品中文字幕 | 免费a级黄色毛片| 中国一级毛片视频免费看| 亚洲午夜精品一区二区| 色妞WWW精品免费视频| 日韩成人毛片高清视频免费看| 青青草原亚洲视频| 四虎在线成人免费网站| 亚洲国产精品美女久久久久| 中文字幕精品无码亚洲字| 4虎1515hh永久免费| 亚洲av无一区二区三区| 国产亚洲精品a在线无码| **aaaaa毛片免费同男同女| 亚洲精品无码久久久久A片苍井空| 亚洲日韩国产一区二区三区| 成年人视频免费在线观看| 三年片在线观看免费观看大全中国| 亚洲AV永久精品爱情岛论坛| 成人爽A毛片免费看| 热99RE久久精品这里都是精品免费 |