讓現實和唯美的科幻更近一點,邁向通用靈巧操控技能的一小步。
原標題:ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
文章來源:機器之心
內容字數:4199字
DexTrack:邁向通用靈巧操控的軌跡跟蹤方法
本文介紹了DexTrack,一種用于實現通用靈巧操控的軌跡跟蹤方法。該方法旨在解決機器人靈巧操控任務中存在的挑戰,例如任務多樣性、對特定任務的依賴以及復雜的接觸交互等。
1. 研究動機:通往通用靈巧操控的挑戰
賦予機器人像人類一樣的靈巧操控能力是實現具身智能的關鍵一步。然而,現有的方法大多集中在特定技能的學習上,例如抓取或旋轉物體,難以遷移到其他任務。這些方法通常需要針對特定任務設計獎勵函數,限制了通用性的實現。DexTrack旨在通過統一的任務表示和通用的軌跡跟蹤控制器來克服這一挑戰。
2. DexTrack:基于軌跡跟蹤的通用方法
DexTrack將各種靈巧操控任務統一表示為軌跡跟蹤任務。給定機器人手和物體的當前狀態以及目標狀態,軌跡跟蹤控制器需要輸出相應的動作,以使實際狀態與目標狀態一致。這種統一的表示方法適用于多種操控任務,例如旋轉物體或使用工具。
DexTrack采用了一種結合強化學習(RL)和模仿學習(IL)的方法來訓練通用軌跡跟蹤控制器。通過引入高質量的軌跡跟蹤數據作為監督信號,降低了RL訓練的難度。同時,DexTrack還利用訓練好的控制器來改進單一軌跡跟蹤演示的質量,形成一個迭代優化的過程。
2.1 統一的軌跡跟蹤任務表示
DexTrack將不同的操控任務統一到一個軌跡跟蹤框架下,通過規劃物體的軌跡,將任務轉化為跟蹤該軌跡的任務。這種統一的表示簡化了控制器的設計。
2.2 通用軌跡的學習方法
DexTrack的訓練方法結合了強化學習和模仿學習,利用高質量的軌跡跟蹤數據作為監督信號來輔助強化學習的訓練過程。這種方法有效地提高了軌跡跟蹤控制器的學習效率和泛化能力。
獎勵函數由物體軌跡跟蹤獎勵、手部軌跡跟蹤獎勵和手與物體的親密度獎勵三部分組成。此外,DexTrack還利用同倫優化(homotopy optimization)來進一步提高軌跡跟蹤的效果。
3. 實驗結果與分析
DexTrack在各種具有挑戰性的操控任務中取得了顯著的成果,包括轉動燈泡、調整刀具角度、旋轉錘子等。實驗結果表明,DexTrack能夠處理復雜的物體軌跡,并對噪聲具有魯棒性。此外,DexTrack也能夠泛化到未曾見過的物體和類型。
真機實驗驗證了DexTrack在真實世界中的可行性,模擬器實驗則進一步證明了其在復雜場景下的有效性。同倫優化方法也被證明可以有效地提高軌跡跟蹤的精度。
4. 結論
DexTrack提出了一種基于軌跡跟蹤的通用靈巧操控方法,通過統一的任務表示和結合RL和IL的訓練方法,有效地解決了通用靈巧操控的挑戰。其在真實世界和模擬環境中的實驗結果都證明了該方法的有效性和魯棒性,為未來通用靈巧操控的研究提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺