田淵棟團(tuán)隊(duì)新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:田淵棟團(tuán)隊(duì)新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%
關(guān)鍵字:智能,任務(wù),人類,模塊,體系
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子
【新智元導(dǎo)讀】AI評(píng)估AI可靠嗎?來自Meta、KAUST團(tuán)隊(duì)的最新研究中,提出了Agent-as-a-Judge框架,證實(shí)了智能體系統(tǒng)能夠以類人的方式評(píng)估。它不僅減少97%成本和時(shí)間,還提供豐富的中間反饋。AI智能體,能否像人類一樣有效地評(píng)估其他AI智能體?
對(duì)于AI智能體來說,評(píng)估決策路徑一直是棘手的問題。
已有的評(píng)估方法,要么只關(guān)注結(jié)果,要么要要過多的人工完成。
為了解決這一問題,田淵棟、Jürgen Schmidhuber帶領(lǐng)的團(tuán)隊(duì)提出了「Agent-as-a-Judge」框架。
簡(jiǎn)言之,讓智能體來評(píng)估智能體系統(tǒng),讓AI審AI。
它不僅可以減少97%的成本和時(shí)間,還能提供豐富的中間反饋。
這是「LLM-as-a-Judge」框架的有機(jī)延伸,通過融入智能體特性,能夠?yàn)檎麄€(gè)任務(wù)解決過程提供中間反饋。
論文地址:https://arxiv.org/abs/2410.10934v1
研究人員提出了DevAI基準(zhǔn),為全新框架提供概念驗(yàn)證測(cè)試平臺(tái)。包含55個(gè)真實(shí)的AI開發(fā)任務(wù),帶有詳細(xì)的手動(dòng)注釋。
通過對(duì)三個(gè)領(lǐng)先的智能體系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,發(fā)現(xiàn)它大大優(yōu)于「LLM-as
原文鏈接:田淵棟團(tuán)隊(duì)新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介: