RoboVLMs 的出現,驗證了視覺語言動作模型的可能性。
原標題:全新模型RoboVLMs解鎖VLA無限可能,真實機器人實驗交出滿分答卷
文章來源:機器之心
內容字數:4745字
機器之心AIxiv專欄:RoboVLMs——解鎖視覺語言動作模型的無限可能
本文介紹了清華大學、字節跳動、中科院自動化所、上海交通大學和新加坡國立大學的研究人員提出的全新視覺語言動作模型(Vision-Language-Action Models,VLAs)——RoboVLMs。該模型在多個模擬和真實機器人實驗中取得了優異的性能,為機器人領域帶來了新的突破。
1. VLA模型的必要性
研究表明,設計合理的VLA模型不僅能夠輕松完成常見操作任務,還能在陌生場景中保持穩定性能。RoboVLMs在CALVIN和SimplerEnv模擬環境中取得了領先的成功率和泛化能力,在真實機器人果蔬分類任務中也展現了其優越性,即使面對干擾環境和未見過的場景也能出色完成任務。
2. 靠譜的VLA架構設計
文章探討了VLA架構設計的關鍵因素,包括動作空間、歷史信息以及歷史信息組織模塊。實驗結果表明,使用連續動作空間、多步歷史信息以及專門的歷史信息組織模塊能夠顯著提升模型性能和泛化能力。基于KosMos基座模型并結合專門的歷史信息組織模塊的架構設計在CALVIN環境中展現了出色的泛化能力。
3. 最合適的基座模型選擇
研究人員對比了8種主流視覺語言模型(VLM),發現KosMos和Paligemma表現突出,顯著優于其他模型。這主要歸功于其強大的視覺語言預訓練,為模型提供了豐富的先驗知識和理解能力。選擇合適的預訓練VLM基座是提升VLA模型性能的關鍵。
4. 跨本體數據的最佳引入時機
實驗結果顯示,在預訓練階段引入跨本體數據(如Open-X Embodiment數據集)能夠顯著提升模型的魯棒性和少樣本學習能力。而直接將跨本體數據與微調數據混合訓練效果并不理想。在WidowX+Bridge和Google Robot環境下的實驗進一步驗證了這一結論,表明在預訓練階段引入跨本體數據是提升模型泛化能力和應對復雜任務的關鍵。
5. 未來展望
RoboVLMs的成功為視覺語言動作模型的發展提供了新的方向。未來研究可以進一步優化模型設計,例如改進VLM內部結構、信息融合模塊和訓練目標;挑戰更復雜的機器人任務,例如多步驟任務;以及提升多模態協作能力,讓機器人能夠更好地理解和響應多模態信息。
總而言之,RoboVLMs的出現為機器人技術帶來了新的可能性,使其更接近成為人類的全能助手。未來,視覺語言動作模型有望在更廣泛的領域發揮作用,幫助我們完成更多復雜的任務。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺