機器人輕松模仿人類，還能泛化到不同任務和智能體！微軟新研究，學習人類和機器人統一動作表示

AIGC動態歡迎閱讀

原標題：機器人輕松模仿人類，還能泛化到不同任務和智能體！微軟新研究，學習人類和機器人統一動作表示
關鍵字：動作,解讀,表示,模型,視頻
文章來源：量子位
內容字數：0字

內容摘要：

IGOR團隊投稿量子位 | 公眾號 QbitAI讓機械臂模仿人類動作的新方法來了，不怕缺高質量機器人數據的那種。
微軟提出圖像目標表示（IGOR，Image-GOal Representation），“投喂”模型人類與現實世界的交互數據。
IGOR能直接為人類和機器人學習一個統一的動作表示空間，實現跨任務和智能體的知識遷移以及下游任務效果的提升。
要知道，在訓練具身智能領域的基礎模型時，高質量帶有標簽的機器人數據是保證模型質量的關鍵，而直接采集機器人數據成本較高。
考慮到互聯網視頻數據中也展示了豐富的人類活動，包括人類是如何與現實世界中的各種物體進行交互的，由此來自微軟的研究團隊提出了IGOR。
究竟怎樣才能學到人類和機器人統一的動作表示呢？
IGOR框架解讀IGOR框架如下所示，包含三個基礎模型：
Latent Action Model、Policy Model和World Model。
具體來說，IGOR先是提出了潛在動作模型LAM（Latent Action Model），將初始狀態和目標狀態之間的視覺變化壓縮為低維向量，并通過最小化初始狀態和動作向量對目標狀態的重建損失來進行

原文鏈接：機器人輕松模仿人類，還能泛化到不同任務和智能體！微軟新研究，學習人類和機器人統一動作表示