機(jī)器人輕松模仿人類,還能泛化到不同任務(wù)和智能體!微軟新研究,學(xué)習(xí)人類和機(jī)器人統(tǒng)一動(dòng)作表示
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:機(jī)器人輕松模仿人類,還能泛化到不同任務(wù)和智能體!微軟新研究,學(xué)習(xí)人類和機(jī)器人統(tǒng)一動(dòng)作表示
關(guān)鍵字:動(dòng)作,解讀,表示,模型,視頻
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
IGOR團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI讓機(jī)械臂模仿人類動(dòng)作的新方法來(lái)了,不怕缺高質(zhì)量機(jī)器人數(shù)據(jù)的那種。
微軟提出圖像目標(biāo)表示(IGOR,Image-GOal Representation),“投喂”模型人類與現(xiàn)實(shí)世界的交互數(shù)據(jù)。
IGOR能直接為人類和機(jī)器人學(xué)習(xí)一個(gè)統(tǒng)一的動(dòng)作表示空間,實(shí)現(xiàn)跨任務(wù)和智能體的知識(shí)遷移以及下游任務(wù)效果的提升。
要知道,在訓(xùn)練具身智能領(lǐng)域的基礎(chǔ)模型時(shí),高質(zhì)量帶有標(biāo)簽的機(jī)器人數(shù)據(jù)是保證模型質(zhì)量的關(guān)鍵,而直接采集機(jī)器人數(shù)據(jù)成本較高。
考慮到互聯(lián)網(wǎng)視頻數(shù)據(jù)中也展示了豐富的人類活動(dòng),包括人類是如何與現(xiàn)實(shí)世界中的各種物體進(jìn)行交互的,由此來(lái)自微軟的研究團(tuán)隊(duì)提出了IGOR。
究竟怎樣才能學(xué)到人類和機(jī)器人統(tǒng)一的動(dòng)作表示呢?
IGOR框架解讀IGOR框架如下所示,包含三個(gè)基礎(chǔ)模型:
Latent Action Model、Policy Model和World Model。
具體來(lái)說(shuō),IGOR先是提出了潛在動(dòng)作模型LAM(Latent Action Model),將初始狀態(tài)和目標(biāo)狀態(tài)之間的視覺(jué)變化壓縮為低維向量,并通過(guò)最小化初始狀態(tài)和動(dòng)作向量對(duì)目標(biāo)狀態(tài)的重建損失來(lái)進(jìn)行
原文鏈接:機(jī)器人輕松模仿人類,還能泛化到不同任務(wù)和智能體!微軟新研究,學(xué)習(xí)人類和機(jī)器人統(tǒng)一動(dòng)作表示
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: