<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        化解機(jī)器人的「幻覺」:北大發(fā)布OmniManip,VLM結(jié)合雙閉環(huán)系統(tǒng),3D理解能力大幅提升

        腦子會了,手也會了

        化解機(jī)器人的「幻覺」:北大發(fā)布OmniManip,VLM結(jié)合雙閉環(huán)系統(tǒng),3D理解能力大幅提升

        原標(biāo)題:化解機(jī)器人的「幻覺」:北大發(fā)布OmniManip,VLM結(jié)合雙閉環(huán)系統(tǒng),3D理解能力大幅提升
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):4833字

        北京大學(xué)與智元機(jī)器人聯(lián)合實(shí)驗(yàn)室:OmniManip架構(gòu)——賦能機(jī)器人通用操作的視覺語言模型

        本文介紹了北京大學(xué)與智元機(jī)器人聯(lián)合實(shí)驗(yàn)室提出的OmniManip架構(gòu),該架構(gòu)旨在解決將視覺語言模型(VLMs)應(yīng)用于機(jī)器人通用操作的兩大關(guān)鍵挑戰(zhàn):VLM缺乏精確的3D理解能力和無法輸出低層次動作。

        1. OmniManip架構(gòu)概述

        OmniManip通過基于對象中心的3D交互基元,將VLM的高層次推理能力轉(zhuǎn)化為機(jī)器人的低層次高精度動作。為了克服大模型幻覺問題和真實(shí)環(huán)境操作的不確定性,它創(chuàng)新性地引入了VLM規(guī)劃和機(jī)器人執(zhí)行的雙閉環(huán)系統(tǒng)設(shè)計(jì),實(shí)現(xiàn)了操作性能的顯著突破。該架構(gòu)無需訓(xùn)練即可實(shí)現(xiàn)開放詞匯操作,在各種機(jī)器人操作任務(wù)中展現(xiàn)出強(qiáng)大的零樣本泛化能力。

        2. 核心技術(shù)方案解析

        1. 基于VLM的任務(wù)解析:利用VLM強(qiáng)大的常識推理能力,將任務(wù)分解為多個結(jié)構(gòu)化階段,每個階段明確指定了主動物體、被動物體和動作類型。
        2. 以物體為中心的交互基元作為空間約束:通過3D基座模型生成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間,使VLM能夠直接在該空間中采樣3D交互基元,作為Action的空間約束,優(yōu)化求解Active物體在Passive物體規(guī)范坐標(biāo)系下的目標(biāo)交互姿態(tài)。交互基元通過其在標(biāo)準(zhǔn)空間中的交互點(diǎn)和方向來表征,封裝了滿足任務(wù)約束所需的基本幾何和功能屬性。
        3. 閉環(huán)VLM規(guī)劃:將目標(biāo)交互姿態(tài)下的Active/Passive物體渲染成圖像,由VLM評估與重采樣,實(shí)現(xiàn)VLM對自身規(guī)劃結(jié)果的閉環(huán)調(diào)整,有效減少大模型幻覺。
        4. 閉環(huán)機(jī)器人執(zhí)行:通過物體6D姿態(tài)實(shí)時更新Active/Passive物體的位姿,轉(zhuǎn)換為機(jī)械臂末端執(zhí)行器的操作軌跡,實(shí)現(xiàn)閉環(huán)執(zhí)行。相比于關(guān)鍵點(diǎn),基于物體的6D位姿跟蹤方式更穩(wěn)定,對遮擋具有更強(qiáng)的魯棒性。

        3. 實(shí)驗(yàn)結(jié)果與優(yōu)勢

        實(shí)驗(yàn)結(jié)果表明,OmniManip在12個真機(jī)短程任務(wù)上均展現(xiàn)出卓越的性能,雙閉環(huán)系統(tǒng)設(shè)計(jì)帶來了約17%的性能提升。其在交互基元提取方面,通過在物體的3D規(guī)范空間中進(jìn)行采樣,克服了2D圖像的局限性,實(shí)現(xiàn)了可靠的3D交互基元提取。此外,OmniManip具有強(qiáng)大的拓展性和潛力,能夠與high-level任務(wù)規(guī)劃器結(jié)合,實(shí)現(xiàn)長程任務(wù)操作,并零成本遷移至不同形態(tài)的本體。

        4. 未來展望

        該團(tuán)隊(duì)即將開源高質(zhì)量的泛化操作大規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準(zhǔn),并已將OmniManip應(yīng)用于數(shù)字資產(chǎn)自動標(biāo)注/合成管道,實(shí)現(xiàn)大規(guī)模的機(jī)器人軌跡自動采集。OmniManip的出現(xiàn)為機(jī)器人通用操作領(lǐng)域帶來了新的突破,具有廣闊的應(yīng)用前景。

        項(xiàng)目主頁:https://omnimanip.github.io

        論文地址:https://arxiv.org/abs/2501.03841


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 青青青青青青久久久免费观看| 黄色短视频免费看| 亚洲国产成人精品无码区在线秒播 | 在线永久免费观看黄网站| 亚洲黄片毛片在线观看| 亚洲小说区图片区另类春色| 亚洲成人免费在线观看| 免费观看四虎精品成人| 久久福利青草精品资源站免费 | 在线观看亚洲视频| 99精品视频在线免费观看| 国产高清免费在线| 亚洲精品午夜视频| 一级毛片在线免费播放| 无码国产精品一区二区免费I6| 免费又黄又爽的视频| 亚洲人成电影在线观看网| 亚洲中文无码永久免费| 亚洲国产精品无码久久98 | 亚洲精品成人片在线观看| 一出一进一爽一粗一大视频免费的 | 亚洲另类无码一区二区三区| 最近的2019免费中文字幕| 69成人免费视频无码专区| 亚洲av成人无码久久精品| 亚洲久热无码av中文字幕| 亚洲国产精品视频| 亚洲暴爽av人人爽日日碰| 免费成人午夜视频| 免费黄色电影在线观看| 在线综合亚洲中文精品| 无码成A毛片免费| 中文字幕亚洲乱码熟女一区二区| jzzijzzij在线观看亚洲熟妇| 免费国产作爱视频网站| 亚洲国产成人精品不卡青青草原| 中文字幕不卡免费高清视频| 最新亚洲成av人免费看| 99无码人妻一区二区三区免费 | 女人张开腿给人桶免费视频| 亚洲宅男精品一区在线观看|