全新模型RoboVLMs解鎖VLA無限可能,真實機(jī)器人實驗交出滿分答卷
RoboVLMs 的出現(xiàn),驗證了視覺語言動作模型的可能性。
原標(biāo)題:全新模型RoboVLMs解鎖VLA無限可能,真實機(jī)器人實驗交出滿分答卷
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4745字
機(jī)器之心AIxiv專欄:RoboVLMs——解鎖視覺語言動作模型的無限可能
本文介紹了清華大學(xué)、字節(jié)跳動、中科院自動化所、上海交通大學(xué)和新加坡國立大學(xué)的研究人員提出的全新視覺語言動作模型(Vision-Language-Action Models,VLAs)——RoboVLMs。該模型在多個模擬和真實機(jī)器人實驗中取得了優(yōu)異的性能,為機(jī)器人領(lǐng)域帶來了新的突破。
1. VLA模型的必要性
研究表明,設(shè)計合理的VLA模型不僅能夠輕松完成常見操作任務(wù),還能在陌生場景中保持穩(wěn)定性能。RoboVLMs在CALVIN和SimplerEnv模擬環(huán)境中取得了領(lǐng)先的成功率和泛化能力,在真實機(jī)器人果蔬分類任務(wù)中也展現(xiàn)了其優(yōu)越性,即使面對干擾環(huán)境和未見過的場景也能出色完成任務(wù)。
2. 靠譜的VLA架構(gòu)設(shè)計
文章探討了VLA架構(gòu)設(shè)計的關(guān)鍵因素,包括動作空間、歷史信息以及歷史信息組織模塊。實驗結(jié)果表明,使用連續(xù)動作空間、多步歷史信息以及專門的歷史信息組織模塊能夠顯著提升模型性能和泛化能力。基于KosMos基座模型并結(jié)合專門的歷史信息組織模塊的架構(gòu)設(shè)計在CALVIN環(huán)境中展現(xiàn)了出色的泛化能力。
3. 最合適的基座模型選擇
研究人員對比了8種主流視覺語言模型(VLM),發(fā)現(xiàn)KosMos和Paligemma表現(xiàn)突出,顯著優(yōu)于其他模型。這主要?dú)w功于其強(qiáng)大的視覺語言預(yù)訓(xùn)練,為模型提供了豐富的先驗知識和理解能力。選擇合適的預(yù)訓(xùn)練VLM基座是提升VLA模型性能的關(guān)鍵。
4. 跨本體數(shù)據(jù)的最佳引入時機(jī)
實驗結(jié)果顯示,在預(yù)訓(xùn)練階段引入跨本體數(shù)據(jù)(如Open-X Embodiment數(shù)據(jù)集)能夠顯著提升模型的魯棒性和少樣本學(xué)習(xí)能力。而直接將跨本體數(shù)據(jù)與微調(diào)數(shù)據(jù)混合訓(xùn)練效果并不理想。在WidowX+Bridge和Google Robot環(huán)境下的實驗進(jìn)一步驗證了這一結(jié)論,表明在預(yù)訓(xùn)練階段引入跨本體數(shù)據(jù)是提升模型泛化能力和應(yīng)對復(fù)雜任務(wù)的關(guān)鍵。
5. 未來展望
RoboVLMs的成功為視覺語言動作模型的發(fā)展提供了新的方向。未來研究可以進(jìn)一步優(yōu)化模型設(shè)計,例如改進(jìn)VLM內(nèi)部結(jié)構(gòu)、信息融合模塊和訓(xùn)練目標(biāo);挑戰(zhàn)更復(fù)雜的機(jī)器人任務(wù),例如多步驟任務(wù);以及提升多模態(tài)協(xié)作能力,讓機(jī)器人能夠更好地理解和響應(yīng)多模態(tài)信息。
總而言之,RoboVLMs的出現(xiàn)為機(jī)器人技術(shù)帶來了新的可能性,使其更接近成為人類的全能助手。未來,視覺語言動作模型有望在更廣泛的領(lǐng)域發(fā)揮作用,幫助我們完成更多復(fù)雜的任務(wù)。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺