国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

浙大&通義全面評測智能體復雜任務規(guī)劃能力，18主流大模型全不及格｜ICLR2025

智能體工作流生成基準WorfBench

浙大&通義全面評測智能體復雜任務規(guī)劃能力，18主流大模型全不及格｜ICLR2025

原標題：浙大&通義全面評測智能體復雜任務規(guī)劃能力，18主流大模型全不及格｜ICLR2025
文章來源：量子位
內(nèi)容字數(shù)：3421字

WorfBench：大模型智能體工作流評測基準

隨著大模型智能體能力的快速發(fā)展，其不再局限于簡單的API調(diào)用，而是能夠像人類一樣與界面交互，執(zhí)行復雜操作。然而，評估這類智能體處理復雜任務的核心能力——工作流生成能力——的基準卻十分缺乏。現(xiàn)有評估方法存在場景覆蓋范圍窄、工作流結(jié)構(gòu)復雜性不足以及評估標準不全面等問題。

為了解決這一問題，浙江大學通義團隊聯(lián)合發(fā)布了WorfBench——一個涵蓋多場景和復雜圖結(jié)構(gòu)工作流的統(tǒng)一基準，以及WorfEval——一套系統(tǒng)性評估協(xié)議。這項研究已被人工智能頂級會議ICLR 2025錄用。

1. WorfBench 的構(gòu)建與評估

WorfBench 利用GPT自動化構(gòu)建多場景任務，包括問題求解、函數(shù)調(diào)用、具體規(guī)劃和開放式規(guī)劃等，生成了包含18k個訓練樣本、2146個測試樣本和723個OOD（Out-of-Distribution，超出分布）樣本的評測數(shù)據(jù)集。WorfBench將工作流建模為有向無環(huán)圖（DAG），更精確地表示現(xiàn)實世界中的復雜串行或并行智能體工作流。為了確保數(shù)據(jù)質(zhì)量，研究人員引入了節(jié)點鏈作為中間結(jié)構(gòu)，并采用拓撲排序算法對圖結(jié)構(gòu)進行質(zhì)量過濾，并在測試集上進行人工驗證。

WorfEval則通過子序列和子圖匹配算法，分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個維度對大模型生成的工作流進行量化評估，從而精準衡量模型的線性規(guī)劃和圖規(guī)劃能力。

2. 基準評測結(jié)果

研究人員在WorfBench上對18種不同規(guī)模的主流大模型進行了評估，包括閉源模型（如O1、GPT-4、Claude-3.5）和開源模型（如Llama系列、Qwen系列等）。結(jié)果顯示，模型在圖結(jié)構(gòu)工作流預測上的能力遠未達到現(xiàn)實需求，即使是GPT-4，其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。即使在訓練集上表現(xiàn)出色，模型在OOD任務上的泛化能力仍然有待提高，這表明僅通過數(shù)據(jù)擬合難以有效學習結(jié)構(gòu)化工作流規(guī)劃能力。

3. 工作流生成分析

研究人員發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距，且圖規(guī)劃能力與模型規(guī)模并非完全正相關(guān)。部分7B模型在某些任務上甚至超越了13B模型，這可能與模型訓練數(shù)據(jù)的規(guī)模和質(zhì)量有關(guān)。即使提供標簽節(jié)點鏈以簡化圖結(jié)構(gòu)預測任務，模型的圖規(guī)劃性能仍不理想，這表明圖規(guī)劃的復雜性在于對任務依賴關(guān)系的理解。

進一步的錯誤分析顯示，大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個方面，這些錯誤大多源于模型對環(huán)境知識的缺乏。

4. 工作流知識增強智能體

研究表明，工作流可以作為一種流程先驗知識直接指導智能體的規(guī)劃過程，幫助其在復雜任務中更高效地執(zhí)行，還可以作為鏈式思考（Chain-of-Thought，CoT）的增強手段。工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務執(zhí)行，顯著減少推理時間，提升任務完成效率。

總而言之，WorfBench和WorfEval為大模型智能體工作流規(guī)劃能力的評估提供了一個重要的基準，也為未來研究指明了方向，例如優(yōu)化提示策略、采用多智能體架構(gòu)，以及將世界知識或世界模型更深入地融入大模型中。