<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        浙大&通義全面評測智能體復雜任務規劃能力,18主流大模型全不及格|ICLR2025

        AIGC動態5個月前發布 量子位
        514 0 0

        智能體工作流生成基準WorfBench

        浙大&通義全面評測智能體復雜任務規劃能力,18主流大模型全不及格|ICLR2025

        原標題:浙大&通義全面評測智能體復雜任務規劃能力,18主流大模型全不及格|ICLR2025
        文章來源:量子位
        內容字數:3421字

        WorfBench:大模型智能體工作流評測基準

        隨著大模型智能體能力的快速發展,其不再局限于簡單的API調用,而是能夠像人類一樣與界面交互,執行復雜操作。然而,評估這類智能體處理復雜任務的核心能力——工作流生成能力——的基準卻十分缺乏。現有評估方法存在場景覆蓋范圍窄、工作流結構復雜性不足以及評估標準不全面等問題。

        為了解決這一問題,浙江大學通義團隊聯合發布了WorfBench——一個涵蓋多場景和復雜圖結構工作流的統一基準,以及WorfEval——一套系統性評估協議。這項研究已被人工智能頂級會議ICLR 2025錄用。

        1. WorfBench 的構建與評估

        WorfBench 利用GPT自動化構建多場景任務,包括問題求解、函數調用、具體規劃和開放式規劃等,生成了包含18k個訓練樣本、2146個測試樣本和723個OOD(Out-of-Distribution,超出分布)樣本的評測數據集。WorfBench將工作流建模為有向無環圖(DAG),更精確地表示現實世界中的復雜串行或并行智能體工作流。為了確保數據質量,研究人員引入了節點鏈作為中間結構,并采用拓撲排序算法對圖結構進行質量過濾,并在測試集上進行人工驗證。

        WorfEval則通過子序列和子圖匹配算法,分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規劃和圖規劃能力。

        2. 基準評測結果

        研究人員在WorfBench上對18種不同規模的主流大模型進行了評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。結果顯示,模型在圖結構工作流預測上的能力遠未達到現實需求,即使是GPT-4,其圖結構工作流的平均性能也僅為52.47%。即使在訓練集上表現出色,模型在OOD任務上的泛化能力仍然有待提高,這表明僅通過數據擬合難以有效學習結構化工作流規劃能力。

        3. 工作流生成分析

        研究人員發現大模型在工作流生成中存在顯著的線性規劃與圖規劃能力差距,且圖規劃能力與模型規模并非完全正相關。部分7B模型在某些任務上甚至超越了13B模型,這可能與模型訓練數據的規模和質量有關。即使提供標簽節點鏈以簡化圖結構預測任務,模型的圖規劃性能仍不理想,這表明圖規劃的復雜性在于對任務依賴關系的理解。

        進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規范性四個方面,這些錯誤大多源于模型對環境知識的缺乏。

        4. 工作流知識增強智能體

        研究表明,工作流可以作為一種流程先驗知識直接指導智能體的規劃過程,幫助其在復雜任務中更高效地執行,還可以作為鏈式思考(Chain-of-Thought,CoT)的增強手段。工作流的圖結構特性能夠實現并行任務執行,顯著減少推理時間,提升任務完成效率。

        總而言之,WorfBench和WorfEval為大模型智能體工作流規劃能力的評估提供了一個重要的基準,也為未來研究指明了方向,例如優化提示策略、采用多智能體架構,以及將世界知識或世界模型更深入地融入大模型中。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲人成影院午夜网站| 国产精品麻豆免费版| 亚洲人成人77777网站| 一级做a爰片久久毛片免费陪 | 亚欧免费视频一区二区三区| 亚洲国产天堂久久久久久| 亚洲色欲色欲www| 免费无码AV电影在线观看| 亚洲香蕉在线观看| 在线jlzzjlzz免费播放| 亚洲av无码一区二区三区四区| 粉色视频在线观看www免费| 国产成人在线观看免费网站| 亚洲欧美在线x视频| 手机看片久久国产免费| 无套内谢孕妇毛片免费看看| 狠狠亚洲婷婷综合色香五月排名| 亚洲最大黄色网站| 性一交一乱一视频免费看| 在线亚洲v日韩v| 黑人大战亚洲人精品一区| 中文字幕免费观看| 亚洲影院天堂中文av色| 亚洲成A人片在线观看无码3D | 亚洲日本在线电影| 国产精品jizz在线观看免费| 一个人看www免费高清字幕| 亚洲AV日韩精品久久久久| 久久久久成人精品免费播放动漫| 免费中文字幕在线观看| a毛看片免费观看视频| 亚洲中文无码线在线观看| 日韩视频免费在线| 中文字幕免费观看视频| 亚洲中文字幕在线无码一区二区 | 久久精品国产亚洲AV麻豆王友容| 亚洲精品动漫免费二区| 中文字幕亚洲日韩无线码| 8090在线观看免费观看| 日韩色日韩视频亚洲网站 | 狠狠亚洲狠狠欧洲2019|