WorldVLA – 阿里達摩院聯合浙大推出的自回歸動作世界模型
WorldVLA是阿里巴巴達摩院和浙江大學攜手打造的革新性自回歸動作世界模型,它巧妙地融合了視覺-語言-動作(VLA)模型與世界模型,構建了一個一體化的框架。該模型通過基于動作和圖像理解來預測未來圖像,旨在深度學習環境的物理規律,從而優化動作生成。它在性能上超越了的動作模型與世界模型,充分展現了兩者間的協同增效作用。
### 什么是 WorldVLA?
WorldVLA,這款由阿里巴巴達摩院與浙江大合研發的自回歸動作世界模型,猶如一個智能的“預言家”,它將視覺、語言和動作(VLA)模型與世界模型融為一體。 借助對動作和圖像的深刻理解,WorldVLA能預見未來的圖像,其根本目標是掌握環境的基本物理規則,以此來精進動作的生成。 動作模型會根據圖像觀察生成后續動作,輔助視覺理解,反過來,這也有助于世界模型進行視覺生成。 與孤立的動作模型和世界模型相比,WorldVLA的表現更為出色,這有力地證明了世界模型與動作模型之間相互促進的強大作用。 為了解決自回歸方式生成一系列動作時可能出現的性能下降問題,WorldVLA引入了注意力掩碼策略,在生成當前動作時有選擇性地屏蔽先前的動作,從而顯著提升動作塊生成任務的性能。
### WorldVLA 的核心功能
* **動作生成:** 接收圖像和語言指令,生成后續的動作序列,支持連續動作規劃,就像為機器人提供行動方案。
* **圖像預測:** 基于當前圖像和動作,預測未來的圖像狀態,從而提升視覺預測的精準度,如同預知未來。
* **環境理解:** 深入學習環境的物理規律,增強視覺和動作理解能力,使其更智能地適應環境。
* **雙向增強:** 動作模型與世界模型相互促進,如同兩個智能體協同工作,共同提升整體性能。
### WorldVLA 的技術精要
* **統一框架:** WorldVLA 將視覺-語言-動作(VLA)模型和世界模型巧妙地整合在一個單一的框架中,利用三個的編碼器(圖像編碼器、文本編碼器和動作編碼器)將不同模態的數據轉化為統一的詞匯表中的標記,實現了跨模態的理解和生成。
* **自回歸生成:** 模型采用自回歸方式進行動作和圖像的生成。 動作模型依據歷史圖像和語言指令生成動作,世界模型則依據歷史圖像和動作預測未來的圖像狀態。
* **注意力掩碼策略:** 為了解決自回歸模型在生成一系列動作時可能出現的性能下降問題,WorldVLA 引入了一種注意力掩碼策略。 在生成當前動作時,它會選擇性地屏蔽先前的動作,從而減少錯誤傳播,提高動作塊生成的性能。
* **雙向增強:** WorldVLA 建立在世界模型和動作模型相互作用的基礎上,實現了雙向增強。 世界模型基于預測未來狀態,幫助動作模型更好地理解環境的物理規律;而動作模型則基于生成的動作,幫助世界模型更準確地預測未來的圖像狀態。
* **訓練策略:** WorldVLA 在訓練過程中混合使用動作模型數據和世界模型數據,確保模型能夠同時掌握動作生成和圖像預測的能力。 這種混合訓練策略使模型能夠在單一架構中實現多種功能。
### 探索 WorldVLA 的世界
* **GitHub 倉庫:** [https://github.com/alibaba-damo-academy/WorldVLA](https://github.com/alibaba-damo-academy/WorldVLA)
* **HuggingFace 模型庫:** [https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2](https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2)
* **arXiv 技術論文:** [https://arxiv.org/pdf/2506.21539](https://arxiv.org/pdf/2506.21539)
### WorldVLA 的應用場景
* **機器人目標導向任務:** 幫助機器人根據視覺和語言指令完成目標導向的任務,例如將物體從一個位置移動到另一個位置,賦予機器人目標導向的智慧。
* **復雜環境中的精細操作:** 在復雜環境中,如凌亂的桌面或狹窄的空間,生成適應性強的動作,完成精細操作,讓機器人應對復雜挑戰。
* **人機協作任務:** 在人機協作場景中,理解人類的動作和意圖,生成相應的協作動作,提高協作效率,實現人機之間的默契配合。
* **未來場景模擬與預測:** 預測未來的圖像狀態,幫助機器人提前規劃和評估動作后果,例如在自動駕駛中預測道路場景,賦予機器人預見未來的能力。
* **教育與研究平臺:** 作為教學工具和研究平臺,幫助學生和研究人員理解和實踐機器人控制和視覺預測的原理,促進學術研究和人才培養。

粵公網安備 44011502001135號