3D版Sora來了？UMass、MIT等提出3D世界模型，具身智能機器人實現新里程碑

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：3D版Sora來了？UMass、MIT等提出3D世界模型，具身智能機器人實現新里程碑
關鍵字：模型,研究人員,機器人,數據,場景
文章來源：新智元
內容字數：10285字

內容摘要：

新智元報道編輯：LRS 好困
【新智元導讀】具身基礎模型突破2D，全新生成式視覺-語言-行動模型3D-VLA，在多項任務中顯著提高了推理、多模態生成和規劃的能力。在最近的研究中，視覺-語言-動作（VLA，vision-language-action）模型的輸入基本都是2D數據，沒有集成更通用的3D物理世界。
此外，現有的模型通過學習「感知到動作的直接映射」來進行動作預測，忽略了世界的動態性，以及動作和動態之間的關系。
相比之下，人類在思考時會引入世界模型，可以描繪除對未來情景的想象，從而對下一步的行動進行規劃。
為此，來自馬薩諸塞州大學阿默斯特分校、MIT等機構的研究人員提出了3D-VLA模型，通過引入一類全新的具身基礎模型（embodied foundation models），可以根據生成的世界模型無縫連接3D感知、推理和行動。項目主頁：https://vis-www.cs.umass.edu/3dvla/
論文地址：https://arxiv.org/abs/2403.09631
具體而言，3D-VLA構建在基于3D的大型語言模型（LLM）之上，并引入一組交互token來參與具

原文鏈接：3D版Sora來了？UMass、MIT等提出3D世界模型，具身智能機器人實現新里程碑