首個WebAgent在線評測框架和流程數(shù)據(jù)管理平臺來了，GPT-4、Qwen登頂閉源和開源榜首！

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：首個WebAgent在線評測框架和流程數(shù)據(jù)管理平臺來了，GPT-4、Qwen登頂閉源和開源榜首！
關(guān)鍵字：任務(wù),節(jié)點,數(shù)據(jù),關(guān)鍵,報告
文章來源：夕小瑤科技說
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 潘奕琛、孔德涵、周思達、崔成
在當今科技迅速發(fā)展的時代，大型語言模型（Large Language Model，LLM）正以前所未有的速度改變著我們與數(shù)字世界的互動方式。基于LLM的智能代理（LLM Agent），從簡單的信息搜索到復(fù)雜的網(wǎng)頁操作，它們正在逐步融入我們的生活。然而，一個關(guān)鍵問題仍然懸而未決：當這些LLM Agent踏入真實的在線網(wǎng)絡(luò)世界時，它們的表現(xiàn)能否如預(yù)期般游刃有余？
現(xiàn)有的評測方法大多停留在靜態(tài)數(shù)據(jù)集或模擬網(wǎng)站的層面。這些方法有其價值，但局限性顯而易見：靜態(tài)數(shù)據(jù)集難以捕捉網(wǎng)頁環(huán)境的動態(tài)變化，如界面更新和內(nèi)容迭代；而模擬網(wǎng)站則缺乏真實世界的復(fù)雜性，未能充分考慮跨站操作，例如使用搜索引擎等操作，這些因素在真實環(huán)境中是不可或缺的。
▲WebCanvas框架圖。左側(cè)展示的是任務(wù)的標注過程，右側(cè)展示的是任務(wù)的評估過程。WebCanvas考慮到了在線網(wǎng)絡(luò)交互中任務(wù)路徑的非唯一性，“獎杯”代表成功到達每個關(guān)鍵節(jié)點后獲得的步驟分數(shù)。為這一難題，跨越星空科技的iMean AI團隊和來自卡內(nèi)基梅隆大學的合作者提出了一種創(chuàng)新的在線評測框架——WebCan

原文鏈接：首個WebAgent在線評測框架和流程數(shù)據(jù)管理平臺來了，GPT-4、Qwen登頂閉源和開源榜首！

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文