NeurIPS 2024 | 真實世界復雜任務，全新基準GTA助力大模型工具調用能力評測

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：NeurIPS 2024 | 真實世界復雜任務，全新基準GTA助力大模型工具調用能力評測
關鍵字：工具,模型,問題,場景,準確率
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收，作者來自上海交通大學 IWIN 計算智能團隊和上海人工智能實驗室。其中，第一作者王驥澤是上海交通大學自動化系一年級博士生，研究方向涉及大模型智能體、自然語言處理。
利用語言模型調用工具，是實現通用目標智能體（general-purpose agents）的重要途徑，對語言模型的工具調用能力提出了挑戰。然而，現有的工具評測和真實世界場景存在很大差距，局限性主要體現在以下幾個方面：
評估問題通常是 AI 生成的，形式固定；
邏輯鏈簡單，不涉及復雜多步推理；
輸入是純文本形式，模態單一；
沒有部署真實可執行的工具，無法端到端評測。
為了突破這些局限，來自上海交通大學與上

原文鏈接：NeurIPS 2024 | 真實世界復雜任務，全新基準GTA助力大模型工具調用能力評測