VitaBench – 美團(tuán)推出的大模型Agent評(píng)測(cè)基準(zhǔn)
美團(tuán)LongCat團(tuán)隊(duì)重磅推出了一項(xiàng)開(kāi)創(chuàng)性的智能體評(píng)測(cè)基準(zhǔn)——VitaBench,旨在深度剖析大模型智能體在應(yīng)對(duì)復(fù)雜挑戰(zhàn)時(shí)的真實(shí)表現(xiàn)。該基準(zhǔn)以我們?nèi)粘I钪凶顬楦哳l的場(chǎng)景為藍(lán)本,如美味的外賣(mài)訂購(gòu)、愜意的餐廳用餐以及便捷的旅游出行,精心構(gòu)建了一個(gè)包含多達(dá)66個(gè)工具的互動(dòng)式評(píng)測(cè)環(huán)境。通過(guò)一系列跨場(chǎng)景的綜合任務(wù),VitaBench從深層推理、工具駕馭能力及用戶互動(dòng)體驗(yàn)三大核心維度,全面量化智能體的綜合實(shí)力。
VitaBench:深度解析智能體性能的里程碑
VitaBench,顧名思義,是美團(tuán)LongCat團(tuán)隊(duì)匠心打造的、專注于復(fù)雜問(wèn)題解決的大模型智能體評(píng)測(cè)體系。它巧妙地將外賣(mài)點(diǎn)餐、餐廳就餐、旅游出行等我們耳熟能詳?shù)纳顖?chǎng)景融入其中,構(gòu)建出一個(gè)擁有66個(gè)實(shí)用工具的交互式測(cè)試環(huán)境。在此基礎(chǔ)上,研究人員設(shè)計(jì)了富有挑戰(zhàn)性的跨場(chǎng)景任務(wù),旨在精準(zhǔn)衡量智能體在深度邏輯推演、工具集成運(yùn)用以及與用戶流暢溝通方面的表現(xiàn)。值得一提的是,VitaBench首次將智能體任務(wù)進(jìn)行了精細(xì)化量化拆解,搭建了龐大且逼真的環(huán)境數(shù)據(jù)庫(kù),并創(chuàng)造性地引入了真實(shí)用戶模擬器。通過(guò)原子化的評(píng)估準(zhǔn)則(Rubric),該基準(zhǔn)實(shí)現(xiàn)了對(duì)智能體行為的極致細(xì)粒度覆蓋與評(píng)估。
VitaBench的核心功能亮點(diǎn)
模擬真實(shí)世界的復(fù)雜任務(wù)環(huán)境:VitaBench以高頻生活場(chǎng)景為藍(lán)本,如外賣(mài)訂購(gòu)、餐飲體驗(yàn)、旅行規(guī)劃等,精心搭建了一個(gè)集成66個(gè)工具的互動(dòng)式測(cè)試平臺(tái)。它不僅設(shè)計(jì)了橫跨不同場(chǎng)景的綜合性任務(wù),更力求還原真實(shí)世界中用戶需求的復(fù)雜性與多變性。
量化智能體任務(wù)的復(fù)雜性維度:該基準(zhǔn)從深度推理、工具運(yùn)用和用戶交互三個(gè)關(guān)鍵視角,對(duì)任務(wù)復(fù)雜性進(jìn)行量化剖析。它通過(guò)觀測(cè)空間規(guī)模、部分可觀測(cè)性、推理節(jié)點(diǎn)數(shù)量等指標(biāo),衡量智能體的推理深度;通過(guò)區(qū)分單場(chǎng)景與跨場(chǎng)景任務(wù),評(píng)估工具使用的靈活性;并借助真實(shí)用戶模擬器,精準(zhǔn)捕捉智能體在交互層面的表現(xiàn)。
實(shí)現(xiàn)行為評(píng)估的精細(xì)化覆蓋:借鑒前沿研究成果,VitaBench將宏觀任務(wù)目標(biāo)細(xì)化為一系列原子化的評(píng)估準(zhǔn)則(Rubric)。它采用帶有重疊的滑動(dòng)窗口技術(shù),對(duì)智能體與用戶的完整對(duì)話軌跡進(jìn)行掃描,并以嚴(yán)苛的“全有或全無(wú)”標(biāo)準(zhǔn)來(lái)判斷任務(wù)完成情況,確保對(duì)智能體每一個(gè)細(xì)微行為都能進(jìn)行全面而精準(zhǔn)的評(píng)估。
提供豐富的開(kāi)源生態(tài)資源:VitaBench秉持開(kāi)放共享的理念,已全面開(kāi)源其項(xiàng)目主頁(yè)、學(xué)術(shù)論文、代碼倉(cāng)庫(kù)和數(shù)據(jù)集。這無(wú)疑為全球的研究者和開(kāi)發(fā)者提供了一份寶貴的資源寶庫(kù),極大地促進(jìn)了智能體技術(shù)在真實(shí)生活場(chǎng)景中的研發(fā)迭代與實(shí)際落地。
VitaBench的創(chuàng)新技術(shù)基石
多維度復(fù)雜性構(gòu)造策略:VitaBench通過(guò)巧妙融合深度推理、工具使用和用戶交互三大核心維度,構(gòu)建出高度復(fù)雜的任務(wù)場(chǎng)景,旨在模擬并挑戰(zhàn)智能體在真實(shí)生活情境下處理復(fù)雜問(wèn)題的能力。
龐大真實(shí)的模擬環(huán)境數(shù)據(jù)庫(kù):該基準(zhǔn)構(gòu)建了一個(gè)規(guī)模龐大且高度仿真的環(huán)境數(shù)據(jù)庫(kù),為智能體提供了部分可觀測(cè)的復(fù)雜環(huán)境。這使得研究人員能夠有效評(píng)估智能體在信息不完全透明條件下的推理和決策能力。
智能化的用戶行為模擬器:VitaBench引入了先進(jìn)的真實(shí)用戶模擬器,能夠模擬不同用戶的行為模式和個(gè)性化偏好。這使得智能體在多輪對(duì)話中能夠適應(yīng)并響應(yīng)多樣化的用戶需求,提升其適應(yīng)性和靈活性。
原子級(jí)評(píng)估準(zhǔn)則的精細(xì)化應(yīng)用:任務(wù)目標(biāo)被拆解為一系列可量化的原子化評(píng)估準(zhǔn)則(Rubric)。通過(guò)滑動(dòng)窗口技術(shù)對(duì)對(duì)話軌跡進(jìn)行掃描,VitaBench實(shí)現(xiàn)了對(duì)智能體行為的極致細(xì)粒度評(píng)估,確保評(píng)估結(jié)果的準(zhǔn)確性和全面性。
精妙的跨場(chǎng)景任務(wù)設(shè)計(jì):VitaBench精心設(shè)計(jì)了多種跨場(chǎng)景綜合任務(wù),旨在考察智能體在不同情境間切換執(zhí)行任務(wù)、整合信息資源的能力。這有助于全面評(píng)估智能體在真實(shí)生活場(chǎng)景中解決綜合性問(wèn)題的表現(xiàn)。
VitaBench的開(kāi)放資源入口
- 項(xiàng)目官方網(wǎng)站:https://vitabench.github.io
- GitHub代碼倉(cāng)庫(kù):https://github.com/meituan-longcat/vitabench
- arXiv學(xué)術(shù)論文:https://arxiv.org/abs/2509.26490
- HuggingFace數(shù)據(jù)集:https://huggingface.co/datasets/meituan-longcat/VitaBench
VitaBench的多元化應(yīng)用場(chǎng)景
外賣(mài)訂購(gòu)的智能優(yōu)化:該評(píng)測(cè)基準(zhǔn)能夠模擬用戶在點(diǎn)外賣(mài)時(shí)的各種復(fù)雜需求,例如根據(jù)個(gè)人口味、預(yù)算限制和時(shí)間要求來(lái)篩選餐廳與菜品。它旨在評(píng)估智能體在多輪對(duì)話中準(zhǔn)確理解用戶意圖、推薦合適選項(xiàng)并順利完成訂單的能力。
餐廳用餐的全流程管理:VitaBench涵蓋了從餐廳查詢、座位預(yù)訂到點(diǎn)菜、結(jié)賬等一系列用餐環(huán)節(jié),全面考察智能體在復(fù)雜情境下的推理與工具運(yùn)用能力,例如根據(jù)用戶偏好推薦餐廳、處理預(yù)訂請(qǐng)求和菜單查詢等任務(wù)。
旅游出行的智慧規(guī)劃:此場(chǎng)景涉及旅行路線規(guī)劃、交通工具預(yù)訂、景點(diǎn)推薦等多個(gè)層面,旨在評(píng)估智能體在跨場(chǎng)景任務(wù)中的綜合表現(xiàn),例如整合不同的工具和信息資源,為用戶量身定制個(gè)性化的旅行方案。
智能體研發(fā)與性能驗(yàn)證:VitaBench為研究人員和開(kāi)發(fā)者提供了一個(gè)標(biāo)準(zhǔn)化、權(quán)威的評(píng)測(cè)平臺(tái),有助于他們客觀評(píng)估和持續(xù)優(yōu)化智能體在復(fù)雜任務(wù)中的性能,從而加速智能體技術(shù)的創(chuàng)新與實(shí)際落地。
人機(jī)交互模式的深入探索:通過(guò)引入真實(shí)用戶模擬器和設(shè)計(jì)多輪對(duì)話任務(wù),VitaBench為研究智能體與用戶之間的交互模式提供了寶貴的數(shù)據(jù)和環(huán)境。這有助于提升智能體在自然語(yǔ)言理解和對(duì)話管理方面的核心能力。

粵公網(wǎng)安備 44011502001135號(hào)