北大具身智能成果入選CVPR'24：只需一張圖一個指令，就能讓大模型玩轉機械臂

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：北大具身智能成果入選CVPR'24：只需一張圖一個指令，就能讓大模型玩轉機械臂
關鍵字：物體,騰訊,模型,方向,任務
文章來源：量子位
內容字數：3392字

內容摘要：

北大前沿計算研究中心投稿投稿量子位 | 公眾號 QbitAI只靠一張物體圖片，大語言模型就能控制機械臂完成各種日常物體操作嗎？
北大最新具身大模型研究成果ManipLLM將這一愿景變成了現實：
在提示詞的引導下，大語言模型在物體圖像上直接預測機械臂的操作點和方向。
進而，得以操控機械臂直接玩轉各項具體的任務：
例如打開抽屜、冰箱，揭鍋蓋、掀馬桶蓋……
作者表示：
該方法利用LLM的推理和面對開放世界的泛化能力，成功提升了模型在物體操縱方面的泛化能力。
在仿真和真實世界中，ManipLLM在各種類別的物體上均取得了令人滿意的效果，證明了其在多樣化類別物體中的可靠性和適用性。
與谷歌RT2等輸出機器人本體動作的策略相比(如下圖所示)，該方法側重于以物體為中心（Object-centric）的操縱，關注物體本身，從而輸出機器人對物體操縱的位姿。
以物體為中心的操縱策略，設計針對物體本身特性的表征，與任務、動作、機器人型號無關。
這樣就可以將物體和任務及環境解耦開來，使得方法本身可以適應于各類任務、各類機器人，從而實現面對復雜世界的泛化。
目前，該工作已被CVPR 2024會議接收，團隊由

原文鏈接：北大具身智能成果入選CVPR'24：只需一張圖一個指令，就能讓大模型玩轉機械臂