李飛飛吳佳俊團(tuán)隊(duì)新作:推出具身智能決策能力評(píng)價(jià)基準(zhǔn),o1-preview登頂 | NeurIPS
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:李飛飛吳佳俊團(tuán)隊(duì)新作:推出具身智能決策能力評(píng)價(jià)基準(zhǔn),o1-preview登頂 | NeurIPS
關(guān)鍵字:目標(biāo),模型,環(huán)境,能力,任務(wù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI大模型的具身智能決策能力,終于有系統(tǒng)的通用評(píng)估基準(zhǔn)了。
李飛飛吳佳俊團(tuán)隊(duì)新提出的評(píng)估框架,對(duì)具身智能決策的四項(xiàng)關(guān)鍵子能力來了個(gè)全面檢查。
這套基準(zhǔn)已經(jīng)被選為了NeurIPS數(shù)據(jù)和測(cè)試集(D&B)專欄Oral論文,同時(shí)也被收錄進(jìn)了PyPI,只要一行代碼就能快速調(diào)用。
該框架名為Embodied Agent Interface(簡(jiǎn)稱EAI),提供了連接不同模塊和基準(zhǔn)環(huán)境的標(biāo)準(zhǔn)接口。
利用這套框架,作者對(duì)18款主流模型進(jìn)行了測(cè)試,形成了一篇超百頁(yè)的論文。
測(cè)試結(jié)果顯示,在已公開的大模型當(dāng)中,o1-preview的綜合成績(jī)位列第一。
李飛飛本人表示,對(duì)這項(xiàng)合作研究感到非常興奮。
有網(wǎng)友評(píng)價(jià)說,這項(xiàng)成果為大模型具身智能決策塑造了未來。
四項(xiàng)子能力全面評(píng)估首先,EAI提供了一種統(tǒng)一的目標(biāo)表示方法,能夠兼容不同類型的目標(biāo),并支持復(fù)雜約束的描述。
團(tuán)隊(duì)認(rèn)為,現(xiàn)有的具身決策任務(wù)通常針對(duì)特定領(lǐng)域設(shè)計(jì)目標(biāo),缺乏一致性和通用性。
例如,BEHAVIOR和VirtualHome都是具身智能體的評(píng)測(cè)基準(zhǔn)和模擬環(huán)境,用于研究智能體在復(fù)雜環(huán)境中完成任務(wù)的能力。
但二
原文鏈接:李飛飛吳佳俊團(tuán)隊(duì)新作:推出具身智能決策能力評(píng)價(jià)基準(zhǔn),o1-preview登頂 | NeurIPS
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介: