首個無師自通、泛化使用各種家具家電的具身三維圖文大模型系統

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：首個無師自通、泛化使用各種家具家電的具身三維圖文大模型系統
關鍵字：解讀,零件,模型,機器人,物體
文章來源：機器之心
內容字數：9771字

內容摘要：

機器之心專欄
機器之心編輯部這幾天，家務活都被機器人搶著干了。
前腳來自斯坦福的會用鍋的機器人剛剛登場，后腳又來了個會用咖啡機的機器人 Figure-01 。只需給它觀看示范視頻，加上10個小時的訓練，Figure-01 就能學會使用咖啡機，放咖啡膠囊到按下啟動鍵，一氣呵成。
但是想要讓機器人無師自通，第一次見到各式各樣的家具家電，就能在沒有示范視頻的情況下熟練使用。這是個難以解決的問題，不僅需要機器人擁有強大的視覺感知、決策規劃能力，更需要精確的操縱技能。
現在，一個三維具身圖文大模型系統為以上難題提供了新思路。該系統將基于三維視覺的精準幾何感知模型與擅長規劃的二維圖文大模型結合了起來，無需樣本數據，即可解決與家具家電有關的復雜長程任務。
這項研究由斯坦福大學的 Leonidas Guibas 教授、北京大學的王鶴教授團隊，與智源人工智能研究院合作完成。論文鏈接：https://arxiv.org/abs/2312.01307
項目主頁：https://geometry.stanford.edu/projects/sage/
代碼：https://github.com/geng-ha

原文鏈接：首個無師自通、泛化使用各種家具家電的具身三維圖文大模型系統