賦能2D模型:北大Lift3D打造強(qiáng)大的3D操控新紀(jì)元
3D 幾何信息對于機(jī)器人操縱任務(wù)至關(guān)重要。
原標(biāo)題:3D具身基礎(chǔ)模型!北大提出Lift3D賦予2D大模型魯棒的3D操縱能力
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):12969字
1. 引言
Lift3D 是一項(xiàng)旨在提升 2D 大規(guī)模預(yù)訓(xùn)練模型在 3D 機(jī)器人操縱任務(wù)中的表現(xiàn)的研究。該項(xiàng)目由北京大學(xué)和北京智源研究院的團(tuán)隊(duì)共同開發(fā),致力于解決當(dāng)前機(jī)器人操縱中面臨的空間幾何信息提取不足和數(shù)據(jù)稀缺的問題。
2. Lift3D 方法概述
Lift3D 通過兩種方式增強(qiáng)了 2D 模型的 3D 空間感知能力:隱式 3D 表示和顯式 3D 表示。隱式表示通過設(shè)計任務(wù)感知的掩碼自編碼器,利用深度幾何信息重建來提升 2D 模型的表達(dá)能力;顯式表示則通過建立 3D 點(diǎn)云數(shù)據(jù)與 2D 位置編碼的映射關(guān)系,直接編碼點(diǎn)云進(jìn)行模仿學(xué)習(xí)。
3. 實(shí)驗(yàn)設(shè)計與評估
研究團(tuán)隊(duì)在多個仿真環(huán)境和真實(shí)場景中進(jìn)行了廣泛的實(shí)驗(yàn),包括 MetaWorld、Adroit 和 RLBench 等多個操縱任務(wù)。Lift3D 在這些任務(wù)中表現(xiàn)出色,尤其是在靈巧手操作中,證明了其優(yōu)越的魯棒性和泛化能力。
4. 實(shí)驗(yàn)結(jié)果
在 MetaWorld 的基準(zhǔn)測試中,Lift3D 達(dá)到了 83.9 的平均成功率,顯著提高了相較于現(xiàn)有 2D 和 3D 方法的表現(xiàn)。在真實(shí)世界實(shí)驗(yàn)中,Lift3D 僅需 30 個示例便可學(xué)習(xí)新技能,顯示出其卓越的學(xué)習(xí)效率。
5. 泛化能力與可擴(kuò)展性
Lift3D 展現(xiàn)出強(qiáng)大的泛化能力,能夠適應(yīng)不同的操作物體、背景場景和光照條件。通過增加模型參數(shù),Lift3D 的表現(xiàn)進(jìn)一步提升,驗(yàn)證了其良好的可擴(kuò)展性。
6. 結(jié)論
本研究提出的 Lift3D 方法有效地增強(qiáng)了 2D 模型在 3D 機(jī)器人操縱中的應(yīng)用潛力,展現(xiàn)了顯著的操作能力和廣泛的適用性,為未來的研究提供了新的思路和方向。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺