字節具身智能新成果：用大規模視頻數據訓練GR-1，復雜任務輕松應對

AIGC動態2年前 (2023)發布機器之心

AIGC動態歡迎閱讀

原標題：字節具身智能新成果：用大規模視頻數據訓練GR-1，復雜任務輕松應對
關鍵字：機器人,數據,任務,物體,語言
文章來源：機器之心
內容字數：5990字

內容摘要：

機器之心發布
機器之心編輯部如何利用大規模的視頻數據來幫助機器人學習復雜任務？
最近 GPT 模型在 NLP 領域取得了巨大成功。GPT 模型首先在大規模的數據上預訓練，然后在特定的下游任務的數據上微調。大規模的預訓練能夠幫助模型學習可泛化的特征，進而讓其輕松遷移到下游的任務上。
但相比自然語言數據，機器人數據是十分稀缺的。而且機器人數據包括了圖片、語言、機器人狀態和機器人動作等多種模態。為了突破這些困難，過去的工作嘗試用 contrastive learning [1] 和 masked modeling [2] 等方式來做預訓練以幫助機器人更好的學習。
在最新的研究中，ByteDance Research 團隊提出 GR-1，首次證明了通過大規模的視頻生成式預訓練能夠大幅提升機器人端到端多任務操作方面的性能和泛化能力。實驗證明這種預訓練方法可以大幅提升模型表現。在極具挑戰的 CALVIN 機器人操作仿真數據集上，GR-1 在 1) 多任務學習 2) 零樣本場景遷移 3) 少量數據 4) 零樣本語言指令遷移上都取得了 SOTA 的結果。在真機上，經過視頻預訓練的 GR-1 在未見過的

原文鏈接：字節具身智能新成果：用大規模視頻數據訓練GR-1，復雜任務輕松應對