NeurIPS 2024 | 真實(shí)世界復(fù)雜任務(wù),全新基準(zhǔn)GTA助力大模型工具調(diào)用能力評測
AIGC動態(tài)歡迎閱讀
原標(biāo)題:NeurIPS 2024 | 真實(shí)世界復(fù)雜任務(wù),全新基準(zhǔn)GTA助力大模型工具調(diào)用能力評測
關(guān)鍵字:工具,模型,問題,場景,準(zhǔn)確率
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收,作者來自上海交通大學(xué) IWIN 計算智能團(tuán)隊和上海人工智能實(shí)驗(yàn)室。其中,第一作者王驥澤是上海交通大學(xué)自動化系一年級博士生,研究方向涉及大模型智能體、自然語言處理。
利用語言模型調(diào)用工具,是實(shí)現(xiàn)通用目標(biāo)智能體(general-purpose agents)的重要途徑,對語言模型的工具調(diào)用能力提出了挑戰(zhàn)。然而,現(xiàn)有的工具評測和真實(shí)世界場景存在很大差距,局限性主要體現(xiàn)在以下幾個方面:
評估問題通常是 AI 生成的,形式固定;
邏輯鏈簡單,不涉及復(fù)雜多步推理;
輸入是純文本形式,模態(tài)單一;
沒有部署真實(shí)可執(zhí)行的工具,無法端到端評測。
為了突破這些局限,來自上海交通大學(xué)與上
原文鏈接:NeurIPS 2024 | 真實(shí)世界復(fù)雜任務(wù),全新基準(zhǔn)GTA助力大模型工具調(diào)用能力評測
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: