李飛飛吳佳俊團隊新作：推出具身智能決策能力評價基準，o1-preview登頂 | NeurIPS

AIGC動態歡迎閱讀

原標題：李飛飛吳佳俊團隊新作：推出具身智能決策能力評價基準，o1-preview登頂 | NeurIPS
關鍵字：目標,模型,環境,能力,任務
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI大模型的具身智能決策能力，終于有系統的通用評估基準了。
李飛飛吳佳俊團隊新提出的評估框架，對具身智能決策的四項關鍵子能力來了個全面檢查。
這套基準已經被選為了NeurIPS數據和測試集（D&B）專欄Oral論文，同時也被收錄進了PyPI，只要一行代碼就能快速調用。
該框架名為Embodied Agent Interface（簡稱EAI），提供了連接不同模塊和基準環境的標準接口。
利用這套框架，作者對18款主流模型進行了測試，形成了一篇超百頁的論文。
測試結果顯示，在已公開的大模型當中，o1-preview的綜合成績位列第一。
李飛飛本人表示，對這項合作研究感到非常興奮。
有網友評價說，這項成果為大模型具身智能決策塑造了未來。
四項子能力全面評估首先，EAI提供了一種統一的目標表示方法，能夠兼容不同類型的目標，并支持復雜約束的描述。
團隊認為，現有的具身決策任務通常針對特定領域設計目標，缺乏一致性和通用性。
例如，BEHAVIOR和VirtualHome都是具身智能體的評測基準和模擬環境，用于研究智能體在復雜環境中完成任務的能力。
但二

原文鏈接：李飛飛吳佳俊團隊新作：推出具身智能決策能力評價基準，o1-preview登頂 | NeurIPS