賦能2D模型:北大Lift3D打造強大的3D操控新紀元
3D 幾何信息對于機器人操縱任務至關(guān)重要。
原標題:3D具身基礎(chǔ)模型!北大提出Lift3D賦予2D大模型魯棒的3D操縱能力
文章來源:機器之心
內(nèi)容字數(shù):12969字
1. 引言
Lift3D 是一項旨在提升 2D 大規(guī)模預訓練模型在 3D 機器人操縱任務中的表現(xiàn)的研究。該項目由北京大學和北京智源研究院的團隊共同開發(fā),致力于解決當前機器人操縱中面臨的空間幾何信息提取不足和數(shù)據(jù)稀缺的問題。
2. Lift3D 方法概述
Lift3D 通過兩種方式增強了 2D 模型的 3D 空間感知能力:隱式 3D 表示和顯式 3D 表示。隱式表示通過設計任務感知的掩碼自編碼器,利用深度幾何信息重建來提升 2D 模型的表達能力;顯式表示則通過建立 3D 點云數(shù)據(jù)與 2D 位置編碼的映射關(guān)系,直接編碼點云進行模仿學習。
3. 實驗設計與評估
研究團隊在多個仿真環(huán)境和真實場景中進行了廣泛的實驗,包括 MetaWorld、Adroit 和 RLBench 等多個操縱任務。Lift3D 在這些任務中表現(xiàn)出色,尤其是在靈巧手操作中,證明了其優(yōu)越的魯棒性和泛化能力。
4. 實驗結(jié)果
在 MetaWorld 的基準測試中,Lift3D 達到了 83.9 的平均成功率,顯著提高了相較于現(xiàn)有 2D 和 3D 方法的表現(xiàn)。在真實世界實驗中,Lift3D 僅需 30 個示例便可學習新技能,顯示出其卓越的學習效率。
5. 泛化能力與可擴展性
Lift3D 展現(xiàn)出強大的泛化能力,能夠適應不同的操作物體、背景場景和光照條件。通過增加模型參數(shù),Lift3D 的表現(xiàn)進一步提升,驗證了其良好的可擴展性。
6. 結(jié)論
本研究提出的 Lift3D 方法有效地增強了 2D 模型在 3D 機器人操縱中的應用潛力,展現(xiàn)了顯著的操作能力和廣泛的適用性,為未來的研究提供了新的思路和方向。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺