AIGC動態歡迎閱讀
原標題:3D版Sora來了?UMass、MIT等提出3D世界模型,具身智能機器人實現新里程碑
關鍵字:模型,研究人員,機器人,數據,場景
文章來源:新智元
內容字數:10285字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】具身基礎模型突破2D,全新生成式視覺-語言-行動模型3D-VLA,在多項任務中顯著提高了推理、多模態生成和規劃的能力。在最近的研究中,視覺-語言-動作(VLA,vision-language-action)模型的輸入基本都是2D數據,沒有集成更通用的3D物理世界。
此外,現有的模型通過學習「感知到動作的直接映射」來進行動作預測,忽略了世界的動態性,以及動作和動態之間的關系。
相比之下,人類在思考時會引入世界模型,可以描繪除對未來情景的想象,從而對下一步的行動進行規劃。
為此,來自馬薩諸塞州大學阿默斯特分校、MIT等機構的研究人員提出了3D-VLA模型,通過引入一類全新的具身基礎模型(embodied foundation models),可以根據生成的世界模型無縫連接3D感知、推理和行動。項目主頁:https://vis-www.cs.umass.edu/3dvla/
論文地址:https://arxiv.org/abs/2403.09631
具體而言,3D-VLA構建在基于3D的大型語言模型(LLM)之上,并引入一組交互token來參與具
原文鏈接:3D版Sora來了?UMass、MIT等提出3D世界模型,具身智能機器人實現新里程碑
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...