<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        全新模型RoboVLMs解鎖VLA無限可能,真實(shí)機(jī)器人實(shí)驗(yàn)交出滿分答卷

        RoboVLMs 的出現(xiàn),驗(yàn)證了視覺語言動作模型的可能性。

        全新模型RoboVLMs解鎖VLA無限可能,真實(shí)機(jī)器人實(shí)驗(yàn)交出滿分答卷

        原標(biāo)題:全新模型RoboVLMs解鎖VLA無限可能,真實(shí)機(jī)器人實(shí)驗(yàn)交出滿分答卷
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):4745字

        機(jī)器之心AIxiv專欄:RoboVLMs——解鎖視覺語言動作模型的無限可能

        本文介紹了清華大學(xué)、字節(jié)跳動、中科院自動化所、上海交通大學(xué)和新加坡國立大學(xué)的研究人員提出的全新視覺語言動作模型(Vision-Language-Action Models,VLAs)——RoboVLMs。該模型在多個模擬和真實(shí)機(jī)器人實(shí)驗(yàn)中取得了優(yōu)異的性能,為機(jī)器人領(lǐng)域帶來了新的突破。

        1. VLA模型的必要性

        研究表明,設(shè)計(jì)合理的VLA模型不僅能夠輕松完成常見操作任務(wù),還能在陌生場景中保持穩(wěn)定性能。RoboVLMs在CALVIN和SimplerEnv模擬環(huán)境中取得了領(lǐng)先的成功率和泛化能力,在真實(shí)機(jī)器人果蔬分類任務(wù)中也展現(xiàn)了其優(yōu)越性,即使面對干擾環(huán)境和未見過的場景也能出色完成任務(wù)。

        2. 靠譜的VLA架構(gòu)設(shè)計(jì)

        文章探討了VLA架構(gòu)設(shè)計(jì)的關(guān)鍵因素,包括動作空間、歷史信息以及歷史信息組織模塊。實(shí)驗(yàn)結(jié)果表明,使用連續(xù)動作空間、多步歷史信息以及專門的歷史信息組織模塊能夠顯著提升模型性能和泛化能力。基于KosMos基座模型并結(jié)合專門的歷史信息組織模塊的架構(gòu)設(shè)計(jì)在CALVIN環(huán)境中展現(xiàn)了出色的泛化能力。

        3. 最合適的基座模型選擇

        研究人員對比了8種主流視覺語言模型(VLM),發(fā)現(xiàn)KosMos和Paligemma表現(xiàn)突出,顯著優(yōu)于其他模型。這主要?dú)w功于其強(qiáng)大的視覺語言預(yù)訓(xùn)練,為模型提供了豐富的先驗(yàn)知識和理解能力。選擇合適的預(yù)訓(xùn)練VLM基座是提升VLA模型性能的關(guān)鍵。

        4. 跨本體數(shù)據(jù)的最佳引入時(shí)機(jī)

        實(shí)驗(yàn)結(jié)果顯示,在預(yù)訓(xùn)練階段引入跨本體數(shù)據(jù)(如Open-X Embodiment數(shù)據(jù)集)能夠顯著提升模型的魯棒性和少樣本學(xué)習(xí)能力。而直接將跨本體數(shù)據(jù)與微調(diào)數(shù)據(jù)混合訓(xùn)練效果并不理想。在WidowX+Bridge和Google Robot環(huán)境下的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一結(jié)論,表明在預(yù)訓(xùn)練階段引入跨本體數(shù)據(jù)是提升模型泛化能力和應(yīng)對復(fù)雜任務(wù)的關(guān)鍵。

        5. 未來展望

        RoboVLMs的成功為視覺語言動作模型的發(fā)展提供了新的方向。未來研究可以進(jìn)一步優(yōu)化模型設(shè)計(jì),例如改進(jìn)VLM內(nèi)部結(jié)構(gòu)、信息融合模塊和訓(xùn)練目標(biāo);挑戰(zhàn)更復(fù)雜的機(jī)器人任務(wù),例如多步驟任務(wù);以及提升多模態(tài)協(xié)作能力,讓機(jī)器人能夠更好地理解和響應(yīng)多模態(tài)信息。

        總而言之,RoboVLMs的出現(xiàn)為機(jī)器人技術(shù)帶來了新的可能性,使其更接近成為人類的全能助手。未來,視覺語言動作模型有望在更廣泛的領(lǐng)域發(fā)揮作用,幫助我們完成更多復(fù)雜的任務(wù)。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费看搞黄视频网站| 亚洲国产成人精品激情| 一区视频免费观看| 国产成人免费手机在线观看视频 | 亚洲女女女同性video| 97碰公开在线观看免费视频| 亚洲A∨无码一区二区三区| 免费在线观影网站| 亚洲国产无套无码av电影| 国产日韩AV免费无码一区二区| 亚洲国产综合无码一区| 无码国产精品一区二区免费16| 亚洲黄色免费网址| 18勿入网站免费永久| 亚洲欧美中文日韩视频| 国产国产成年年人免费看片| 十八禁的黄污污免费网站| 亚洲精品国产日韩无码AV永久免费网 | 亚洲国产成人久久精品app| 亚洲一级毛片免费在线观看| 亚洲成人黄色在线| 女人与禽交视频免费看| 激情吃奶吻胸免费视频xxxx| 亚洲色偷拍另类无码专区| 暖暖免费日本在线中文| 亚洲一区二区三区免费观看| 女人18毛片特级一级免费视频| 激情小说亚洲色图| 亚洲国产精华液网站w| 1000部拍拍拍18勿入免费视频软件| 最新亚洲卡一卡二卡三新区| 免费A级毛片无码A∨男男| a视频免费在线观看| 久久亚洲最大成人网4438| 亚洲成?Ⅴ人在线观看无码| 日本不卡免费新一区二区三区| 国产精品亚洲四区在线观看| 亚洲色图综合在线| 成人免费大片免费观看网站| 阿v视频免费在线观看| 亚洲高清免费在线观看|