GTA

GTA（通用工具智能體基準(zhǔn)測試）是由上海交通大學(xué)與上海AI實(shí)驗(yàn)室聯(lián)合推出的一項創(chuàng)新基準(zhǔn)工具，旨在評估大型語言模型（LLMs）在實(shí)際應(yīng)用中調(diào)用工具的能力。該測試結(jié)合了真實(shí)用戶問題、實(shí)際部署的工具以及多模態(tài)輸入輸出，創(chuàng)建了一個全面且細(xì)致的評估框架，能夠有效衡量LLMs在復(fù)雜場景中的工具使用表現(xiàn)。

GTA是什么

GTA（通用工具智能體基準(zhǔn)測試）是由上海交通大學(xué)與上海AI實(shí)驗(yàn)室共同開發(fā)的一項基準(zhǔn)評測，目的是評估大型語言模型（LLMs）在真實(shí)環(huán)境中調(diào)用工具的能力。GTA的設(shè)計基于真實(shí)用戶問題、實(shí)際部署的工具以及多模態(tài)輸入輸出，構(gòu)建了一個全面而細(xì)致的評估體系，能夠有效地衡量LLMs在復(fù)雜場景下的工具應(yīng)用能力。GTA包括229個由人類設(shè)計的問題，涵蓋感知、操作、邏輯和創(chuàng)造力等多個領(lǐng)域，要求模型能夠推理適合的工具、規(guī)劃操作步驟，以解決現(xiàn)實(shí)中的復(fù)雜任務(wù)。

GTA

GTA的主要功能

真實(shí)用戶查詢：包含229個由人類編寫的問題，這些問題雖然目標(biāo)簡單，但解決的步驟和所需的工具并不明顯，LLM需通過推理選擇合適的工具并規(guī)劃操作。
實(shí)際部署的工具：GTA提供一個評估平臺，涵蓋感知、操作、邏輯和創(chuàng)造力四大類別的14種工具，以評估代理在真實(shí)任務(wù)中的執(zhí)行能力。
多模態(tài)輸入輸出：GTA引入了空間場景、網(wǎng)頁截圖、表格、代碼片段、手寫或打印材料等多模態(tài)輸入，要求模型處理豐富的上下文信息并提供文本或圖像輸出。
細(xì)致評估：GTA設(shè)計了細(xì)致的評估指標(biāo)，包括指令遵循準(zhǔn)確率（InstAcc）、工具選擇準(zhǔn)確率（ToolAcc）、參數(shù)預(yù)測準(zhǔn)確率（ArgAcc）、答案總結(jié)準(zhǔn)確率（SummAcc）以及最終答案準(zhǔn)確率（AnsAcc）。
模型評測：GTA支持逐步模式（step-by-step mode）和端到端模式（end-to-end mode）下對語言模型的評估，全面考察模型的工具使用能力。

GTA的技術(shù)原理

數(shù)據(jù)集構(gòu)建：GTA的數(shù)據(jù)集構(gòu)建分為問題構(gòu)建和工具鏈構(gòu)建兩個部分。問題由專家設(shè)計示例和標(biāo)注文檔，標(biāo)注人員根據(jù)示例設(shè)計更多的問題。工具鏈由標(biāo)注人員手動調(diào)用已部署的工具構(gòu)建，確保每個問題都能通過提供的工具得到解決。
工具調(diào)用：GTA采用ReAct風(fēng)格的提示模板，指引LLM以特定格式調(diào)用工具，并處理工具返回的結(jié)果。該模板支持LLM進(jìn)行推理與規(guī)劃，決定何時以及如何調(diào)用工具。
多模態(tài)處理：GTA要求LLM能夠理解和處理多模態(tài)輸入，包括圖像和文本，體現(xiàn)模型的跨模態(tài)理解和推理能力。
細(xì)致評估指標(biāo)：GTA設(shè)計的評估指標(biāo)覆蓋工具調(diào)用的整個過程，從LLM的工具調(diào)用到執(zhí)行結(jié)果，提供對模型性能的全面評估。
模型比較：通過比較不同模型在GTA上的表現(xiàn)，揭示現(xiàn)有模型在處理真實(shí)世界問題時的工具使用瓶頸，為未來的通用工具智能體改進(jìn)提供方向。

GTA的項目地址

項目官網(wǎng)：open-compass.github.io/GTA
GitHub倉庫：https://github.com/open-compass/GTA
HuggingFace模型庫：https://huggingface.co/datasets/Jize1/GTA
arXiv技術(shù)論文：https://arxiv.org/pdf/2407.08713

GTA的應(yīng)用場景

智能助理開發(fā)：GTA可用于評估和訓(xùn)練智能助理，使其更好地理解和執(zhí)行復(fù)雜的用戶請求，涉及多步驟的操作和多種工具的調(diào)用。
多模態(tài)交互：在處理圖像、文本及其他多媒體內(nèi)容的場景中，GTA幫助模型學(xué)習(xí)如何結(jié)合多種輸入類型來解決問題。
自動化客戶服務(wù)：GTA可用于開發(fā)自動解決客戶問題的系統(tǒng)，該系統(tǒng)需調(diào)用不同的工具和資源以提供準(zhǔn)確的答案和解決方案。
教育和培訓(xùn)：GTA作為教育工具，幫助學(xué)生理解如何設(shè)計和實(shí)現(xiàn)復(fù)雜任務(wù)，這些任務(wù)需要多步驟推理和工具使用。
研究與開發(fā)：研究人員利用GTA測試和比較不同的LLMs，探索工具使用能力的新方法，推動AI技術(shù)的不斷進(jìn)步。

常見問題

GTA的目標(biāo)是什么？：GTA旨在評估大型語言模型在現(xiàn)實(shí)場景中調(diào)用工具的能力，促進(jìn)智能體在多模態(tài)環(huán)境下的應(yīng)用。
GTA的評估指標(biāo)有哪些？：GTA的評估指標(biāo)包括指令遵循準(zhǔn)確率、工具選擇準(zhǔn)確率、參數(shù)預(yù)測準(zhǔn)確率、答案總結(jié)準(zhǔn)確率和最終答案準(zhǔn)確率。
GTA適合哪些應(yīng)用場景？：GTA可用于智能助理開發(fā)、自動化客戶服務(wù)、多模態(tài)交互、教育培訓(xùn)以及研究開發(fā)等多個領(lǐng)域。

閱讀原文

# AI工具 # AI項目和框架 # 任務(wù)系統(tǒng)# 多人在線模式 # 開放世界探索 # 角色扮演 # 車輛自定義

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

GTA

GTA是什么

GTA的主要功能

GTA的技術(shù)原理

GTA的項目地址

GTA的應(yīng)用場景

常見問題

CoLingo

33字幕

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？