国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025

AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 量子位
516 0 0

智能體工作流生成基準(zhǔn)WorfBench

浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025

原標(biāo)題:浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025
文章來源:量子位
內(nèi)容字?jǐn)?shù):3421字

WorfBench:大模型智能體工作流評(píng)測(cè)基準(zhǔn)

隨著大模型智能體能力的快速發(fā)展,其不再局限于簡單的API調(diào)用,而是能夠像人類一樣與界面交互,執(zhí)行復(fù)雜操作。然而,評(píng)估這類智能體處理復(fù)雜任務(wù)的核心能力——工作流生成能力——的基準(zhǔn)卻十分缺乏。現(xiàn)有評(píng)估方法存在場(chǎng)景覆蓋范圍窄、工作流結(jié)構(gòu)復(fù)雜性不足以及評(píng)估標(biāo)準(zhǔn)不全面等問題。

為了解決這一問題,浙江大學(xué)通義團(tuán)隊(duì)聯(lián)合發(fā)布了WorfBench——一個(gè)涵蓋多場(chǎng)景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評(píng)估協(xié)議。這項(xiàng)研究已被人工智能頂級(jí)會(huì)議ICLR 2025錄用。

1. WorfBench 的構(gòu)建與評(píng)估

WorfBench 利用GPT自動(dòng)化構(gòu)建多場(chǎng)景任務(wù),包括問題求解、函數(shù)調(diào)用、具體規(guī)劃和開放式規(guī)劃等,生成了包含18k個(gè)訓(xùn)練樣本、2146個(gè)測(cè)試樣本和723個(gè)OOD(Out-of-Distribution,超出分布)樣本的評(píng)測(cè)數(shù)據(jù)集。WorfBench將工作流建模為有向無環(huán)圖(DAG),更精確地表示現(xiàn)實(shí)世界中的復(fù)雜串行或并行智能體工作流。為了確保數(shù)據(jù)質(zhì)量,研究人員引入了節(jié)點(diǎn)鏈作為中間結(jié)構(gòu),并采用拓?fù)渑判蛩惴▽?duì)圖結(jié)構(gòu)進(jìn)行質(zhì)量過濾,并在測(cè)試集上進(jìn)行人工驗(yàn)證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個(gè)維度對(duì)大模型生成的工作流進(jìn)行量化評(píng)估,從而精準(zhǔn)衡量模型的線性規(guī)劃和圖規(guī)劃能力。

2. 基準(zhǔn)評(píng)測(cè)結(jié)果

研究人員在WorfBench上對(duì)18種不同規(guī)模的主流大模型進(jìn)行了評(píng)估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。結(jié)果顯示,模型在圖結(jié)構(gòu)工作流預(yù)測(cè)上的能力遠(yuǎn)未達(dá)到現(xiàn)實(shí)需求,即使是GPT-4,其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。即使在訓(xùn)練集上表現(xiàn)出色,模型在OOD任務(wù)上的泛化能力仍然有待提高,這表明僅通過數(shù)據(jù)擬合難以有效學(xué)習(xí)結(jié)構(gòu)化工作流規(guī)劃能力。

3. 工作流生成分析

研究人員發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關(guān)。部分7B模型在某些任務(wù)上甚至超越了13B模型,這可能與模型訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量有關(guān)。即使提供標(biāo)簽節(jié)點(diǎn)鏈以簡化圖結(jié)構(gòu)預(yù)測(cè)任務(wù),模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復(fù)雜性在于對(duì)任務(wù)依賴關(guān)系的理解。

進(jìn)一步的錯(cuò)誤分析顯示,大模型在工作流生成中的典型錯(cuò)誤主要集中在任務(wù)分解的粒度、任務(wù)描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個(gè)方面,這些錯(cuò)誤大多源于模型對(duì)環(huán)境知識(shí)的缺乏。

4. 工作流知識(shí)增強(qiáng)智能體

研究表明,工作流可以作為一種流程先驗(yàn)知識(shí)直接指導(dǎo)智能體的規(guī)劃過程,幫助其在復(fù)雜任務(wù)中更高效地執(zhí)行,還可以作為鏈?zhǔn)剿伎迹–hain-of-Thought,CoT)的增強(qiáng)手段。工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務(wù)執(zhí)行,顯著減少推理時(shí)間,提升任務(wù)完成效率。

總而言之,WorfBench和WorfEval為大模型智能體工作流規(guī)劃能力的評(píng)估提供了一個(gè)重要的基準(zhǔn),也為未來研究指明了方向,例如優(yōu)化提示策略、采用多智能體架構(gòu),以及將世界知識(shí)或世界模型更深入地融入大模型中。


聯(lián)系作者

文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評(píng)論

暫無評(píng)論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        亚洲电影视频在线| 欧美一级一区二区| 在线观看视频91| 中文字幕一区二区三区在线播放| 国产一区二区三区蝌蚪| 26uuu亚洲综合色欧美 | 日本一区二区动态图| 国产aⅴ综合色| 亚洲免费视频中文字幕| 欧美性猛片aaaaaaa做受| 调教+趴+乳夹+国产+精品| 日韩欧美久久一区| 99久久国产综合精品女不卡| 亚洲图片自拍偷拍| www一区二区| 97精品电影院| 韩国欧美一区二区| 亚洲欧美aⅴ...| 欧美va亚洲va| 欧美中文字幕一区二区三区亚洲| 精品一区二区精品| 一区二区三区中文在线观看| 欧美不卡一二三| 色8久久人人97超碰香蕉987| 精品亚洲成a人在线观看| 最新久久zyz资源站| 日韩午夜激情av| 91香蕉视频mp4| 国产一区二区在线观看免费| 一区二区三区加勒比av| 亚洲精品在线三区| 在线播放日韩导航| 欧美性大战久久久久久久蜜臀| 国产不卡在线一区| 毛片av一区二区| 亚洲一区电影777| 国产精品久久久久久久久免费桃花 | 国产成人免费在线视频| 日日摸夜夜添夜夜添亚洲女人| 日本一区二区成人| 26uuu欧美| 欧美一区二区黄色| 欧美视频一区二区三区| 色婷婷久久久综合中文字幕| 国产成人自拍高清视频在线免费播放| 丝袜美腿成人在线| 亚洲一区二区黄色| 亚洲一区在线看| 一区二区三区日本| 亚洲人成在线播放网站岛国| 日本一区二区综合亚洲| 久久综合网色—综合色88| 精品少妇一区二区三区免费观看| 91精品欧美福利在线观看| 欧美日韩国产在线观看| 欧美午夜精品电影| 欧美日韩精品福利| 欧美丰满少妇xxxxx高潮对白| 欧美日精品一区视频| 欧美视频一区二| 欧美一区日韩一区| 欧美成人高清电影在线| 国产亚洲欧美在线| 国产日产精品一区| 国产精品久久午夜夜伦鲁鲁| 国产精品黄色在线观看| 日韩美女啊v在线免费观看| 国产精品三级av| 亚洲影院理伦片| 亚洲国产欧美在线| 日韩成人精品视频| 激情图片小说一区| 成人av手机在线观看| 色噜噜狠狠色综合中国| 欧美午夜一区二区三区免费大片| 欧美三级乱人伦电影| 欧美精品久久久久久久多人混战| 日韩午夜激情视频| 国产精品你懂的在线欣赏| 亚洲欧美一区二区三区孕妇| 午夜精品久久久久久久久久| 国产在线精品一区二区不卡了| 成人网男人的天堂| 欧美亚洲日本国产| 久久人人爽人人爽| 一区二区三区电影在线播| 日本中文一区二区三区| 国产成人丝袜美腿| 欧美伊人精品成人久久综合97| 日韩精品影音先锋| 亚洲资源中文字幕| 国产一区在线精品| 色老综合老女人久久久| 精品国产乱码久久久久久夜甘婷婷 | 欧美国产日韩一二三区| 国产目拍亚洲精品99久久精品| 最近中文字幕一区二区三区| 日日欢夜夜爽一区| 成人国产在线观看| 日韩欧美你懂的| 亚洲国产精品嫩草影院| 国产ts人妖一区二区| 欧美三级电影在线看| 国产欧美视频一区二区| 午夜欧美大尺度福利影院在线看 | 日本亚洲免费观看| 色综合激情久久| 久久精品亚洲一区二区三区浴池| 亚洲图片欧美综合| 不卡欧美aaaaa| 久久天天做天天爱综合色| 亚洲在线一区二区三区| 国产99久久久精品| 日韩精品一区二区三区中文不卡| 911国产精品| 国产精品影视在线| 欧美亚一区二区| 日韩欧美色电影| 欧美区一区二区三区| 国产三级精品三级| 九色综合国产一区二区三区| 欧美日韩精品三区| 亚洲伦理在线免费看| 国产资源在线一区| 欧美一区二区三区播放老司机| 一区二区三区在线视频免费观看| 粉嫩av亚洲一区二区图片| 日韩欧美国产一区在线观看| 视频一区在线视频| 欧美日本在线视频| 亚洲成精国产精品女| 91久久精品一区二区三区| 中文字幕一区二| 色老汉av一区二区三区| 国内外成人在线| 久久精品在线观看| 欧美精品日韩一本| 欧美伊人精品成人久久综合97 | 中文字幕一区在线观看视频| 国内不卡的二区三区中文字幕| 精品视频在线看| 天天爽夜夜爽夜夜爽精品视频 | 99久久精品免费看国产| 国产精品拍天天在线| 99re亚洲国产精品| 亚洲成人动漫av| 精品蜜桃在线看| 97精品久久久午夜一区二区三区| 亚洲最快最全在线视频| 日韩视频免费直播| 国产制服丝袜一区| 午夜激情一区二区三区| 日韩欧美另类在线| 欧美精品乱码久久久久久| 夜夜嗨av一区二区三区中文字幕| 午夜一区二区三区视频| 欧美三级电影精品| 日韩电影一区二区三区四区| 欧美大片一区二区| 粉嫩aⅴ一区二区三区四区五区| 综合久久一区二区三区| 欧美亚州韩日在线看免费版国语版| 日韩精品一区第一页| 欧美电视剧在线看免费| 国产黄色精品视频| 亚洲综合图片区| 日韩精品专区在线影院重磅| 成人91在线观看| 亚洲国产wwwccc36天堂| 精品国产91洋老外米糕| 久久免费精品国产久精品久久久久| 日韩视频一区在线观看| 欧美日韩一区二区在线观看视频| 欧美日韩在线播放三区| 欧美韩国日本一区| 91丨国产丨九色丨pron| 日韩激情一二三区| 欧美高清在线一区二区| 欧美三级电影网| 成人h动漫精品| 日本少妇一区二区| 亚洲欧洲成人av每日更新| 日韩一区二区三区四区五区六区| 国产激情视频一区二区三区欧美| 洋洋成人永久网站入口| 国产精品水嫩水嫩| 欧美不卡在线视频| 欧美日韩视频专区在线播放| 懂色av一区二区三区蜜臀 | 日韩一区二区影院| 成人免费视频网站在线观看| 日韩精品中文字幕在线一区| 国产欧美精品一区| 亚洲精品日日夜夜| 性做久久久久久久久| 日韩欧美视频一区| 欧美在线播放高清精品| 国产精品中文有码| 久久91精品久久久久久秒播| 一区二区三区av电影 |