化解機(jī)器人的「幻覺」:北大發(fā)布OmniManip,VLM結(jié)合雙閉環(huán)系統(tǒng),3D理解能力大幅提升
腦子會了,手也會了
原標(biāo)題:化解機(jī)器人的「幻覺」:北大發(fā)布OmniManip,VLM結(jié)合雙閉環(huán)系統(tǒng),3D理解能力大幅提升
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4833字
北京大學(xué)與智元機(jī)器人聯(lián)合實(shí)驗(yàn)室:OmniManip架構(gòu)——賦能機(jī)器人通用操作的視覺語言模型
本文介紹了北京大學(xué)與智元機(jī)器人聯(lián)合實(shí)驗(yàn)室提出的OmniManip架構(gòu),該架構(gòu)旨在解決將視覺語言模型(VLMs)應(yīng)用于機(jī)器人通用操作的兩大關(guān)鍵挑戰(zhàn):VLM缺乏精確的3D理解能力和無法輸出低層次動作。
1. OmniManip架構(gòu)概述
OmniManip通過基于對象中心的3D交互基元,將VLM的高層次推理能力轉(zhuǎn)化為機(jī)器人的低層次高精度動作。為了克服大模型幻覺問題和真實(shí)環(huán)境操作的不確定性,它創(chuàng)新性地引入了VLM規(guī)劃和機(jī)器人執(zhí)行的雙閉環(huán)系統(tǒng)設(shè)計(jì),實(shí)現(xiàn)了操作性能的顯著突破。該架構(gòu)無需訓(xùn)練即可實(shí)現(xiàn)開放詞匯操作,在各種機(jī)器人操作任務(wù)中展現(xiàn)出強(qiáng)大的零樣本泛化能力。
2. 核心技術(shù)方案解析
- 基于VLM的任務(wù)解析:利用VLM強(qiáng)大的常識推理能力,將任務(wù)分解為多個結(jié)構(gòu)化階段,每個階段明確指定了主動物體、被動物體和動作類型。
- 以物體為中心的交互基元作為空間約束:通過3D基座模型生成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間,使VLM能夠直接在該空間中采樣3D交互基元,作為Action的空間約束,優(yōu)化求解Active物體在Passive物體規(guī)范坐標(biāo)系下的目標(biāo)交互姿態(tài)。交互基元通過其在標(biāo)準(zhǔn)空間中的交互點(diǎn)和方向來表征,封裝了滿足任務(wù)約束所需的基本幾何和功能屬性。
- 閉環(huán)VLM規(guī)劃:將目標(biāo)交互姿態(tài)下的Active/Passive物體渲染成圖像,由VLM評估與重采樣,實(shí)現(xiàn)VLM對自身規(guī)劃結(jié)果的閉環(huán)調(diào)整,有效減少大模型幻覺。
- 閉環(huán)機(jī)器人執(zhí)行:通過物體6D姿態(tài)實(shí)時更新Active/Passive物體的位姿,轉(zhuǎn)換為機(jī)械臂末端執(zhí)行器的操作軌跡,實(shí)現(xiàn)閉環(huán)執(zhí)行。相比于關(guān)鍵點(diǎn),基于物體的6D位姿跟蹤方式更穩(wěn)定,對遮擋具有更強(qiáng)的魯棒性。
3. 實(shí)驗(yàn)結(jié)果與優(yōu)勢
實(shí)驗(yàn)結(jié)果表明,OmniManip在12個真機(jī)短程任務(wù)上均展現(xiàn)出卓越的性能,雙閉環(huán)系統(tǒng)設(shè)計(jì)帶來了約17%的性能提升。其在交互基元提取方面,通過在物體的3D規(guī)范空間中進(jìn)行采樣,克服了2D圖像的局限性,實(shí)現(xiàn)了可靠的3D交互基元提取。此外,OmniManip具有強(qiáng)大的拓展性和潛力,能夠與high-level任務(wù)規(guī)劃器結(jié)合,實(shí)現(xiàn)長程任務(wù)操作,并零成本遷移至不同形態(tài)的本體。
4. 未來展望
該團(tuán)隊(duì)即將開源高質(zhì)量的泛化操作大規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準(zhǔn),并已將OmniManip應(yīng)用于數(shù)字資產(chǎn)自動標(biāo)注/合成管道,實(shí)現(xiàn)大規(guī)模的機(jī)器人軌跡自動采集。OmniManip的出現(xiàn)為機(jī)器人通用操作領(lǐng)域帶來了新的突破,具有廣闊的應(yīng)用前景。
項(xiàng)目主頁:https://omnimanip.github.io
論文地址:https://arxiv.org/abs/2501.03841
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺