AIGC動態歡迎閱讀
原標題:機器人領域首個開源視覺–語言操作大模型,RoboFlamingo框架激發開源VLMs更大潛能
關鍵字:機器人,語言,任務,模型,視覺
文章來源:機器之心
內容字數:7960字
內容摘要:
機器之心專欄
機器之心編輯部還在苦苦尋找開源的機器人大模型?試試RoboFlamingo!
近年來,大模型的研究正在加速推進,它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求,這自然引申出一個問題:能不能充分利用大模型能力,將其遷移到機器人領域,直接規劃底層動作序列呢?
對此,ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。使用簡單、少量的微調就可以把 VLM 變成 Robotics VLM,從而適用于語言交互的機器人操作任務。
OpenFlamingo 在機器人操作數據集 CALVIN 上進行了驗證,實驗結果表明,RoboFlamingo 只利用了 1% 的帶語言標注的數據即在一系列機器人操作任務上取得了 SOTA 的性能。隨著 RT-X 數據集開放,采用開源數據預訓練 RoboFlamingo 并 finetune 到不同機器人平臺,將有希望成為一個簡單有效的
原文鏈接:機器人領域首個開源視覺-語言操作大模型,RoboFlamingo框架激發開源VLMs更大潛能
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...