RHINO 旨在賦予人形機器人實時響應人類指令、靈活切換任務的能力,通過學習人類交互數據,讓機器人學會 “察言觀色”?。
原標題:實時人-機-物交互框架 RHINO:人形機器人助手從人類交互數據中學會「察言觀色」
文章來源:AI科技評論
內容字數:7367字
上海交大RHINO框架:賦予人形機器人實時人機交互能力
本文介紹了上海交通大學研究團隊提出的實時人機物交互框架RHINO,該框架旨在解決人形機器人在復雜交互場景中實時響應與數據處理的難題,使其能夠成為人類日常生活中真正得力的助手。
1. RHINO框架概述
RHINO框架將人機交互過程建模為領導者-跟隨者模式,人類作為領導者,機器人作為跟隨者,通過一系列技能完類意圖。該框架的核心在于其分層學習架構,將交互過程分解為多個子模塊,包括反應式規劃器、交互技能模塊、操作技能模塊和安全監督模塊。這種分解式設計提升了模型的泛化能力,使其能夠更好地適應不同的場景和人類行為。
2. 關鍵模塊
反應式規劃器:
基于Transformer架構,以30Hz頻率實時推斷人類意圖,并決定機器人的下一個技能。它融合了人類身體姿態、手部動作、物體信息等多模態數據,能夠靈活處理技能的啟動、中斷和切換。
交互技能模塊:
采用多體擴散模型,基于歷史數據預測未來機器人,生成平滑自然的交互動作,例如揮手、握手等。該模塊能夠實時反饋人類意圖。
操作技能模塊:
為每個低層級操作技能訓練的ACT模型,實現精確的物體操作,例如拿起、放下、蓋章等。該模塊學習技能的成功條件,并能判斷任務是否完成。
安全監督模塊:
實時監測機器人與人類之間的距離,防止碰撞,保障人機交互安全性。
3. 數據收集與訓練
RHINO框架的訓練數據包括人-物-人交互數據和遙操作數據。人-物-人數據用于學習理解人類意圖和交互動作技能;遙操作數據用于學習精確的物體操作技能。這些數據涵蓋了餐飲和辦公場景下的日常交互任務。
4. 實驗結果與評估
實驗結果表明,RHINO框架在人類意圖預測、生成和物體操作方面均取得了優異的性能。在人類意圖預測方面,RHINO優于基線模型;在生成方面,RHINO生成的更自然流暢;在物體操作方面,RHINO在許多任務上的成功率甚至超過人類。此外,RHINO框架在處理多技能任務和應對分布外數據方面也表現出良好的魯棒性。
5. 結論
RHINO框架通過創新的分層學習架構,成功實現了人形機器人的實時人機物交互。其高效性、靈活性和安全性使其在多種場景下都具有應用潛力,為人形機器人成為人類日常生活中得力助手鋪平了道路。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。