VideoWorld:基于未標注視頻數據訓練的自回歸視頻生成模型
原標題:字節提出VideoWorld,從自回歸視頻生成模型獲取世界知識!
文章來源:智猩猩GenAI
內容字數:10972字
VideoWorld: 從未標記視頻中學習知識
本文介紹了VideoWorld,一個基于未標記視頻數據訓練的自回歸視頻生成模型,它能夠僅從視覺輸入中學習復雜知識,例如規則、推理和規劃能力。這項研究挑戰了當前主要依賴文本數據的大型語言模型范式,并探索了視覺信息在知識學習中的重要性。
1. 研究動機與背景
大型語言模型(LLMs)通過“下一個標記預測”范式學習了顯著的世界知識,但其知識獲取主要依賴于文本數據,無法完全捕捉所有形式的知識或涵蓋現實世界中的大量信息。生物體,特別是靈長類動物,主要通過視覺信息學習,這啟發了研究者探索深度生成模型是否能夠僅從視覺輸入中學習復雜知識。
2. VideoWorld 模型架構
VideoWorld采用了一個基于自回歸視頻生成器的框架,包含VQ-VAE編碼器-解碼器和一個自回歸Transformer。為了提高學習效率,VideoWorld的核心組件是潛在動態模型(LDM)。LDM通過壓縮每一幀到其后續幀的視覺變化為一組潛在代碼,從而實現視覺變化的緊湊表示,這對于長期推理和規劃任務至關重要。LDM的輸出與自回歸Transformer無縫集成,共同生成視頻幀并進行任務操作。
3. 關鍵技術:潛在動態模型 (LDM)
LDM旨在解決原始視頻數據冗余的問題。通過使用查詢嵌入表示跨多個幀的視覺變化,LDM將豐富的視覺信息壓縮為緊湊的嵌入,提高了學習效率。實驗結果表明,LDM顯著提高了模型的性能和學習速度,尤其是在需要長期推理和規劃的任務中。
4. 實驗結果與分析
VideoWorld在三個基準測試上進行了評估:Video-GoBench、CALVIN和RLBench。
- Video-GoBench (圍棋): VideoWorld在該基準測試中達到了5段專業水平,超過了基于強化學習的KataGo模型,證明了其在掌握復雜游戲規則和策略方面的能力。即使是參數規模最小的模型也表現出色,并且性能隨著模型規模的增加而持續提高。
- CALVIN (機器人控制): VideoWorld有效地學習了多樣化的控制操作,并在不同環境中進行了泛化,接近了使用真實動作標簽監督的模型的性能,這表明LDM有效地支持了基于視頻的知識學習。
- RLBench (機器人控制): VideoWorld在RLBench中也表現出良好的泛化能力,在不同的機器人環境中成功完成了任務,接近Oracle模型的性能,這展示了其作為通用知識學習者的潛力。
實驗結果驗證了兩個關鍵發現:(1)模型可以僅從原始視頻中學習基本知識;(2)視覺變化的表示對于知識學習至關重要。
5. 結論
VideoWorld成功地從未標記視頻數據中學習了復雜知識,證明了基于視頻的知識學習的可行性。潛在動態模型的引入顯著提高了學習效率和效果。這項研究為從視覺數據中獲取知識開辟了新的途徑,并為未來構建能夠在現實世界中思考和行動的人工智能系統奠定了基礎。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。