GTA(通用工具智能體基準(zhǔn)測試)是由上海交通大學(xué)與上海AI實(shí)驗(yàn)室聯(lián)合推出的一項創(chuàng)新基準(zhǔn)工具,旨在評估大型語言模型(LLMs)在實(shí)際應(yīng)用中調(diào)用工具的能力。該測試結(jié)合了真實(shí)用戶問題、實(shí)際部署的工具以及多模態(tài)輸入輸出,創(chuàng)建了一個全面且細(xì)致的評估框架,能夠有效衡量LLMs在復(fù)雜場景中的工具使用表現(xiàn)。
GTA是什么
GTA(通用工具智能體基準(zhǔn)測試)是由上海交通大學(xué)與上海AI實(shí)驗(yàn)室共同開發(fā)的一項基準(zhǔn)評測,目的是評估大型語言模型(LLMs)在真實(shí)環(huán)境中調(diào)用工具的能力。GTA的設(shè)計基于真實(shí)用戶問題、實(shí)際部署的工具以及多模態(tài)輸入輸出,構(gòu)建了一個全面而細(xì)致的評估體系,能夠有效地衡量LLMs在復(fù)雜場景下的工具應(yīng)用能力。GTA包括229個由人類設(shè)計的問題,涵蓋感知、操作、邏輯和創(chuàng)造力等多個領(lǐng)域,要求模型能夠推理適合的工具、規(guī)劃操作步驟,以解決現(xiàn)實(shí)中的復(fù)雜任務(wù)。
GTA的主要功能
- 真實(shí)用戶查詢:包含229個由人類編寫的問題,這些問題雖然目標(biāo)簡單,但解決的步驟和所需的工具并不明顯,LLM需通過推理選擇合適的工具并規(guī)劃操作。
- 實(shí)際部署的工具:GTA提供一個評估平臺,涵蓋感知、操作、邏輯和創(chuàng)造力四大類別的14種工具,以評估代理在真實(shí)任務(wù)中的執(zhí)行能力。
- 多模態(tài)輸入輸出:GTA引入了空間場景、網(wǎng)頁截圖、表格、代碼片段、手寫或打印材料等多模態(tài)輸入,要求模型處理豐富的上下文信息并提供文本或圖像輸出。
- 細(xì)致評估:GTA設(shè)計了細(xì)致的評估指標(biāo),包括指令遵循準(zhǔn)確率(InstAcc)、工具選擇準(zhǔn)確率(ToolAcc)、參數(shù)預(yù)測準(zhǔn)確率(ArgAcc)、答案總結(jié)準(zhǔn)確率(SummAcc)以及最終答案準(zhǔn)確率(AnsAcc)。
- 模型評測:GTA支持逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下對語言模型的評估,全面考察模型的工具使用能力。
GTA的技術(shù)原理
- 數(shù)據(jù)集構(gòu)建:GTA的數(shù)據(jù)集構(gòu)建分為問題構(gòu)建和工具鏈構(gòu)建兩個部分。問題由專家設(shè)計示例和標(biāo)注文檔,標(biāo)注人員根據(jù)示例設(shè)計更多的問題。工具鏈由標(biāo)注人員手動調(diào)用已部署的工具構(gòu)建,確保每個問題都能通過提供的工具得到解決。
- 工具調(diào)用:GTA采用ReAct風(fēng)格的提示模板,指引LLM以特定格式調(diào)用工具,并處理工具返回的結(jié)果。該模板支持LLM進(jìn)行推理與規(guī)劃,決定何時以及如何調(diào)用工具。
- 多模態(tài)處理:GTA要求LLM能夠理解和處理多模態(tài)輸入,包括圖像和文本,體現(xiàn)模型的跨模態(tài)理解和推理能力。
- 細(xì)致評估指標(biāo):GTA設(shè)計的評估指標(biāo)覆蓋工具調(diào)用的整個過程,從LLM的工具調(diào)用到執(zhí)行結(jié)果,提供對模型性能的全面評估。
- 模型比較:通過比較不同模型在GTA上的表現(xiàn),揭示現(xiàn)有模型在處理真實(shí)世界問題時的工具使用瓶頸,為未來的通用工具智能體改進(jìn)提供方向。
GTA的項目地址
- 項目官網(wǎng):open-compass.github.io/GTA
- GitHub倉庫:https://github.com/open-compass/GTA
- HuggingFace模型庫:https://huggingface.co/datasets/Jize1/GTA
- arXiv技術(shù)論文:https://arxiv.org/pdf/2407.08713
GTA的應(yīng)用場景
- 智能助理開發(fā):GTA可用于評估和訓(xùn)練智能助理,使其更好地理解和執(zhí)行復(fù)雜的用戶請求,涉及多步驟的操作和多種工具的調(diào)用。
- 多模態(tài)交互:在處理圖像、文本及其他多媒體內(nèi)容的場景中,GTA幫助模型學(xué)習(xí)如何結(jié)合多種輸入類型來解決問題。
- 自動化客戶服務(wù):GTA可用于開發(fā)自動解決客戶問題的系統(tǒng),該系統(tǒng)需調(diào)用不同的工具和資源以提供準(zhǔn)確的答案和解決方案。
- 教育和培訓(xùn):GTA作為教育工具,幫助學(xué)生理解如何設(shè)計和實(shí)現(xiàn)復(fù)雜任務(wù),這些任務(wù)需要多步驟推理和工具使用。
- 研究與開發(fā):研究人員利用GTA測試和比較不同的LLMs,探索工具使用能力的新方法,推動AI技術(shù)的不斷進(jìn)步。
常見問題
- GTA的目標(biāo)是什么?:GTA旨在評估大型語言模型在現(xiàn)實(shí)場景中調(diào)用工具的能力,促進(jìn)智能體在多模態(tài)環(huán)境下的應(yīng)用。
- GTA的評估指標(biāo)有哪些?:GTA的評估指標(biāo)包括指令遵循準(zhǔn)確率、工具選擇準(zhǔn)確率、參數(shù)預(yù)測準(zhǔn)確率、答案總結(jié)準(zhǔn)確率和最終答案準(zhǔn)確率。
- GTA適合哪些應(yīng)用場景?:GTA可用于智能助理開發(fā)、自動化客戶服務(wù)、多模態(tài)交互、教育培訓(xùn)以及研究開發(fā)等多個領(lǐng)域。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...