實(shí)時(shí)人-機(jī)-物交互框架 RHINO:人形機(jī)器人助手從人類交互數(shù)據(jù)中學(xué)會(huì)「察言觀色」
RHINO 旨在賦予人形機(jī)器人實(shí)時(shí)響應(yīng)人類指令、靈活切換任務(wù)的能力,通過學(xué)習(xí)人類交互數(shù)據(jù),讓機(jī)器人學(xué)會(huì) “察言觀色”?。
原標(biāo)題:實(shí)時(shí)人-機(jī)-物交互框架 RHINO:人形機(jī)器人助手從人類交互數(shù)據(jù)中學(xué)會(huì)「察言觀色」
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):7367字
上海交大RHINO框架:賦予人形機(jī)器人實(shí)時(shí)人機(jī)交互能力
本文介紹了上海交通大學(xué)研究團(tuán)隊(duì)提出的實(shí)時(shí)人機(jī)物交互框架RHINO,該框架旨在解決人形機(jī)器人在復(fù)雜交互場(chǎng)景中實(shí)時(shí)響應(yīng)與數(shù)據(jù)處理的難題,使其能夠成為人類日常生活中真正得力的助手。
1. RHINO框架概述
RHINO框架將人機(jī)交互過程建模為領(lǐng)導(dǎo)者-跟隨者模式,人類作為領(lǐng)導(dǎo)者,機(jī)器人作為跟隨者,通過一系列技能完類意圖。該框架的核心在于其分層學(xué)習(xí)架構(gòu),將交互過程分解為多個(gè)子模塊,包括反應(yīng)式規(guī)劃器、交互技能模塊、操作技能模塊和安全監(jiān)督模塊。這種分解式設(shè)計(jì)提升了模型的泛化能力,使其能夠更好地適應(yīng)不同的場(chǎng)景和人類行為。
2. 關(guān)鍵模塊
反應(yīng)式規(guī)劃器:
基于Transformer架構(gòu),以30Hz頻率實(shí)時(shí)推斷人類意圖,并決定機(jī)器人的下一個(gè)技能。它融合了人類身體姿態(tài)、手部動(dòng)作、物體信息等多模態(tài)數(shù)據(jù),能夠靈活處理技能的啟動(dòng)、中斷和切換。
交互技能模塊:
采用多體擴(kuò)散模型,基于歷史數(shù)據(jù)預(yù)測(cè)未來機(jī)器人,生成平滑自然的交互動(dòng)作,例如揮手、握手等。該模塊能夠?qū)崟r(shí)反饋人類意圖。
操作技能模塊:
為每個(gè)低層級(jí)操作技能訓(xùn)練的ACT模型,實(shí)現(xiàn)精確的物體操作,例如拿起、放下、蓋章等。該模塊學(xué)習(xí)技能的成功條件,并能判斷任務(wù)是否完成。
安全監(jiān)督模塊:
實(shí)時(shí)監(jiān)測(cè)機(jī)器人與人類之間的距離,防止碰撞,保障人機(jī)交互安全性。
3. 數(shù)據(jù)收集與訓(xùn)練
RHINO框架的訓(xùn)練數(shù)據(jù)包括人-物-人交互數(shù)據(jù)和遙操作數(shù)據(jù)。人-物-人數(shù)據(jù)用于學(xué)習(xí)理解人類意圖和交互動(dòng)作技能;遙操作數(shù)據(jù)用于學(xué)習(xí)精確的物體操作技能。這些數(shù)據(jù)涵蓋了餐飲和辦公場(chǎng)景下的日常交互任務(wù)。
4. 實(shí)驗(yàn)結(jié)果與評(píng)估
實(shí)驗(yàn)結(jié)果表明,RHINO框架在人類意圖預(yù)測(cè)、生成和物體操作方面均取得了優(yōu)異的性能。在人類意圖預(yù)測(cè)方面,RHINO優(yōu)于基線模型;在生成方面,RHINO生成的更自然流暢;在物體操作方面,RHINO在許多任務(wù)上的成功率甚至超過人類。此外,RHINO框架在處理多技能任務(wù)和應(yīng)對(duì)分布外數(shù)據(jù)方面也表現(xiàn)出良好的魯棒性。
5. 結(jié)論
RHINO框架通過創(chuàng)新的分層學(xué)習(xí)架構(gòu),成功實(shí)現(xiàn)了人形機(jī)器人的實(shí)時(shí)人機(jī)物交互。其高效性、靈活性和安全性使其在多種場(chǎng)景下都具有應(yīng)用潛力,為人形機(jī)器人成為人類日常生活中得力助手鋪平了道路。
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。
相關(guān)文章
