WorldVLA – 阿里達(dá)摩院聯(lián)合浙大推出的自回歸動作世界模型
WorldVLA是阿里巴巴達(dá)摩院和浙江大學(xué)攜手打造的革新性自回歸動作世界模型,它巧妙地融合了視覺-語言-動作(VLA)模型與世界模型,構(gòu)建了一個一體化的框架。該模型通過基于動作和圖像理解來預(yù)測未來圖像,旨在深度學(xué)習(xí)環(huán)境的物理規(guī)律,從而優(yōu)化動作生成。它在性能上超越了的動作模型與世界模型,充分展現(xiàn)了兩者間的協(xié)同增效作用。
### 什么是 WorldVLA?
WorldVLA,這款由阿里巴巴達(dá)摩院與浙江大合研發(fā)的自回歸動作世界模型,猶如一個智能的“預(yù)言家”,它將視覺、語言和動作(VLA)模型與世界模型融為一體。 借助對動作和圖像的深刻理解,WorldVLA能預(yù)見未來的圖像,其根本目標(biāo)是掌握環(huán)境的基本物理規(guī)則,以此來精進(jìn)動作的生成。 動作模型會根據(jù)圖像觀察生成后續(xù)動作,輔助視覺理解,反過來,這也有助于世界模型進(jìn)行視覺生成。 與孤立的動作模型和世界模型相比,WorldVLA的表現(xiàn)更為出色,這有力地證明了世界模型與動作模型之間相互促進(jìn)的強(qiáng)大作用。 為了解決自回歸方式生成一系列動作時可能出現(xiàn)的性能下降問題,WorldVLA引入了注意力掩碼策略,在生成當(dāng)前動作時有選擇性地屏蔽先前的動作,從而顯著提升動作塊生成任務(wù)的性能。
### WorldVLA 的核心功能
* **動作生成:** 接收圖像和語言指令,生成后續(xù)的動作序列,支持連續(xù)動作規(guī)劃,就像為機(jī)器人提供行動方案。
* **圖像預(yù)測:** 基于當(dāng)前圖像和動作,預(yù)測未來的圖像狀態(tài),從而提升視覺預(yù)測的精準(zhǔn)度,如同預(yù)知未來。
* **環(huán)境理解:** 深入學(xué)習(xí)環(huán)境的物理規(guī)律,增強(qiáng)視覺和動作理解能力,使其更智能地適應(yīng)環(huán)境。
* **雙向增強(qiáng):** 動作模型與世界模型相互促進(jìn),如同兩個智能體協(xié)同工作,共同提升整體性能。
### WorldVLA 的技術(shù)精要
* **統(tǒng)一框架:** WorldVLA 將視覺-語言-動作(VLA)模型和世界模型巧妙地整合在一個單一的框架中,利用三個的編碼器(圖像編碼器、文本編碼器和動作編碼器)將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的詞匯表中的標(biāo)記,實(shí)現(xiàn)了跨模態(tài)的理解和生成。
* **自回歸生成:** 模型采用自回歸方式進(jìn)行動作和圖像的生成。 動作模型依據(jù)歷史圖像和語言指令生成動作,世界模型則依據(jù)歷史圖像和動作預(yù)測未來的圖像狀態(tài)。
* **注意力掩碼策略:** 為了解決自回歸模型在生成一系列動作時可能出現(xiàn)的性能下降問題,WorldVLA 引入了一種注意力掩碼策略。 在生成當(dāng)前動作時,它會選擇性地屏蔽先前的動作,從而減少錯誤傳播,提高動作塊生成的性能。
* **雙向增強(qiáng):** WorldVLA 建立在世界模型和動作模型相互作用的基礎(chǔ)上,實(shí)現(xiàn)了雙向增強(qiáng)。 世界模型基于預(yù)測未來狀態(tài),幫助動作模型更好地理解環(huán)境的物理規(guī)律;而動作模型則基于生成的動作,幫助世界模型更準(zhǔn)確地預(yù)測未來的圖像狀態(tài)。
* **訓(xùn)練策略:** WorldVLA 在訓(xùn)練過程中混合使用動作模型數(shù)據(jù)和世界模型數(shù)據(jù),確保模型能夠同時掌握動作生成和圖像預(yù)測的能力。 這種混合訓(xùn)練策略使模型能夠在單一架構(gòu)中實(shí)現(xiàn)多種功能。
### 探索 WorldVLA 的世界
* **GitHub 倉庫:** [https://github.com/alibaba-damo-academy/WorldVLA](https://github.com/alibaba-damo-academy/WorldVLA)
* **HuggingFace 模型庫:** [https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2](https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2)
* **arXiv 技術(shù)論文:** [https://arxiv.org/pdf/2506.21539](https://arxiv.org/pdf/2506.21539)
### WorldVLA 的應(yīng)用場景
* **機(jī)器人目標(biāo)導(dǎo)向任務(wù):** 幫助機(jī)器人根據(jù)視覺和語言指令完成目標(biāo)導(dǎo)向的任務(wù),例如將物體從一個位置移動到另一個位置,賦予機(jī)器人目標(biāo)導(dǎo)向的智慧。
* **復(fù)雜環(huán)境中的精細(xì)操作:** 在復(fù)雜環(huán)境中,如凌亂的桌面或狹窄的空間,生成適應(yīng)性強(qiáng)的動作,完成精細(xì)操作,讓機(jī)器人應(yīng)對復(fù)雜挑戰(zhàn)。
* **人機(jī)協(xié)作任務(wù):** 在人機(jī)協(xié)作場景中,理解人類的動作和意圖,生成相應(yīng)的協(xié)作動作,提高協(xié)作效率,實(shí)現(xiàn)人機(jī)之間的默契配合。
* **未來場景模擬與預(yù)測:** 預(yù)測未來的圖像狀態(tài),幫助機(jī)器人提前規(guī)劃和評估動作后果,例如在自動駕駛中預(yù)測道路場景,賦予機(jī)器人預(yù)見未來的能力。
* **教育與研究平臺:** 作為教學(xué)工具和研究平臺,幫助學(xué)生和研究人員理解和實(shí)踐機(jī)器人控制和視覺預(yù)測的原理,促進(jìn)學(xué)術(shù)研究和人才培養(yǎng)。

粵公網(wǎng)安備 44011502001135號