AIGC動態歡迎閱讀
原標題:李飛飛吳佳俊團隊新作:推出具身智能決策能力評價基準,o1-preview登頂 | NeurIPS
關鍵字:目標,模型,環境,能力,任務
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型的具身智能決策能力,終于有系統的通用評估基準了。
李飛飛吳佳俊團隊新提出的評估框架,對具身智能決策的四項關鍵子能力來了個全面檢查。
這套基準已經被選為了NeurIPS數據和測試集(D&B)專欄Oral論文,同時也被收錄進了PyPI,只要一行代碼就能快速調用。
該框架名為Embodied Agent Interface(簡稱EAI),提供了連接不同模塊和基準環境的標準接口。
利用這套框架,作者對18款主流模型進行了測試,形成了一篇超百頁的論文。
測試結果顯示,在已公開的大模型當中,o1-preview的綜合成績位列第一。
李飛飛本人表示,對這項合作研究感到非常興奮。
有網友評價說,這項成果為大模型具身智能決策塑造了未來。
四項子能力全面評估首先,EAI提供了一種統一的目標表示方法,能夠兼容不同類型的目標,并支持復雜約束的描述。
團隊認為,現有的具身決策任務通常針對特定領域設計目標,缺乏一致性和通用性。
例如,BEHAVIOR和VirtualHome都是具身智能體的評測基準和模擬環境,用于研究智能體在復雜環境中完成任務的能力。
但二
原文鏈接:李飛飛吳佳俊團隊新作:推出具身智能決策能力評價基準,o1-preview登頂 | NeurIPS
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...