AIGC動態歡迎閱讀
原標題:NeurIPS 2024 | 真實世界復雜任務,全新基準GTA助力大模型工具調用能力評測
關鍵字:工具,模型,問題,場景,準確率
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收,作者來自上海交通大學 IWIN 計算智能團隊和上海人工智能實驗室。其中,第一作者王驥澤是上海交通大學自動化系一年級博士生,研究方向涉及大模型智能體、自然語言處理。
利用語言模型調用工具,是實現通用目標智能體(general-purpose agents)的重要途徑,對語言模型的工具調用能力提出了挑戰。然而,現有的工具評測和真實世界場景存在很大差距,局限性主要體現在以下幾個方面:
評估問題通常是 AI 生成的,形式固定;
邏輯鏈簡單,不涉及復雜多步推理;
輸入是純文本形式,模態單一;
沒有部署真實可執行的工具,無法端到端評測。
為了突破這些局限,來自上海交通大學與上
原文鏈接:NeurIPS 2024 | 真實世界復雜任務,全新基準GTA助力大模型工具調用能力評測
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...