AIGC動態歡迎閱讀
原標題:北大具身智能成果入選CVPR'24:只需一張圖一個指令,就能讓大模型玩轉機械臂
關鍵字:物體,騰訊,模型,方向,任務
文章來源:量子位
內容字數:3392字
內容摘要:
北大前沿計算研究中心 投稿 投稿量子位 | 公眾號 QbitAI只靠一張物體圖片,大語言模型就能控制機械臂完成各種日常物體操作嗎?
北大最新具身大模型研究成果ManipLLM將這一愿景變成了現實:
在提示詞的引導下,大語言模型在物體圖像上直接預測機械臂的操作點和方向。
進而,得以操控機械臂直接玩轉各項具體的任務:
例如打開抽屜、冰箱,揭鍋蓋、掀馬桶蓋……
作者表示:
該方法利用LLM的推理和面對開放世界的泛化能力,成功提升了模型在物體操縱方面的泛化能力。
在仿真和真實世界中,ManipLLM在各種類別的物體上均取得了令人滿意的效果,證明了其在多樣化類別物體中的可靠性和適用性。
與谷歌RT2等輸出機器人本體動作的策略相比(如下圖所示),該方法側重于以物體為中心(Object-centric)的操縱,關注物體本身,從而輸出機器人對物體操縱的位姿。
以物體為中心的操縱策略,設計針對物體本身特性的表征,與任務、動作、機器人型號無關。
這樣就可以將物體和任務及環境解耦開來,使得方法本身可以適應于各類任務、各類機器人,從而實現面對復雜世界的泛化。
目前,該工作已被CVPR 2024會議接收,團隊由
原文鏈接:北大具身智能成果入選CVPR'24:只需一張圖一個指令,就能讓大模型玩轉機械臂
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...