<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        GTA

        AI工具10個月前發(fā)布 AI工具集
        349 0 0

        GTA(通用工具智能體基準(zhǔn)測試)是由上海交通大學(xué)與上海AI實(shí)驗(yàn)室聯(lián)合推出的一項創(chuàng)新基準(zhǔn)工具,旨在評估大型語言模型(LLMs)在實(shí)際應(yīng)用中調(diào)用工具的能力。該測試結(jié)合了真實(shí)用戶問題、實(shí)際部署的工具以及多模態(tài)輸入輸出,創(chuàng)建了一個全面且細(xì)致的評估框架,能夠有效衡量LLMs在復(fù)雜場景中的工具使用表現(xiàn)。

        GTA是什么

        GTA(通用工具智能體基準(zhǔn)測試)是由上海交通大學(xué)與上海AI實(shí)驗(yàn)室共同開發(fā)的一項基準(zhǔn)評測,目的是評估大型語言模型(LLMs)在真實(shí)環(huán)境中調(diào)用工具的能力。GTA的設(shè)計基于真實(shí)用戶問題、實(shí)際部署的工具以及多模態(tài)輸入輸出,構(gòu)建了一個全面而細(xì)致的評估體系,能夠有效地衡量LLMs在復(fù)雜場景下的工具應(yīng)用能力。GTA包括229個由人類設(shè)計的問題,涵蓋感知、操作、邏輯和創(chuàng)造力等多個領(lǐng)域,要求模型能夠推理適合的工具、規(guī)劃操作步驟,以解決現(xiàn)實(shí)中的復(fù)雜任務(wù)。

        GTA

        GTA的主要功能

        • 真實(shí)用戶查詢:包含229個由人類編寫的問題,這些問題雖然目標(biāo)簡單,但解決的步驟和所需的工具并不明顯,LLM需通過推理選擇合適的工具并規(guī)劃操作。
        • 實(shí)際部署的工具:GTA提供一個評估平臺,涵蓋感知、操作、邏輯和創(chuàng)造力四大類別的14種工具,以評估代理在真實(shí)任務(wù)中的執(zhí)行能力。
        • 多模態(tài)輸入輸出:GTA引入了空間場景、網(wǎng)頁截圖、表格、代碼片段、手寫或打印材料等多模態(tài)輸入,要求模型處理豐富的上下文信息并提供文本或圖像輸出。
        • 細(xì)致評估:GTA設(shè)計了細(xì)致的評估指標(biāo),包括指令遵循準(zhǔn)確率(InstAcc)、工具選擇準(zhǔn)確率(ToolAcc)、參數(shù)預(yù)測準(zhǔn)確率(ArgAcc)、答案總結(jié)準(zhǔn)確率(SummAcc)以及最終答案準(zhǔn)確率(AnsAcc)。
        • 模型評測:GTA支持逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下對語言模型的評估,全面考察模型的工具使用能力。

        GTA的技術(shù)原理

        • 數(shù)據(jù)集構(gòu)建:GTA的數(shù)據(jù)集構(gòu)建分為問題構(gòu)建和工具鏈構(gòu)建兩個部分。問題由專家設(shè)計示例和標(biāo)注文檔,標(biāo)注人員根據(jù)示例設(shè)計更多的問題。工具鏈由標(biāo)注人員手動調(diào)用已部署的工具構(gòu)建,確保每個問題都能通過提供的工具得到解決。
        • 工具調(diào)用:GTA采用ReAct風(fēng)格的提示模板,指引LLM以特定格式調(diào)用工具,并處理工具返回的結(jié)果。該模板支持LLM進(jìn)行推理與規(guī)劃,決定何時以及如何調(diào)用工具。
        • 多模態(tài)處理:GTA要求LLM能夠理解和處理多模態(tài)輸入,包括圖像和文本,體現(xiàn)模型的跨模態(tài)理解和推理能力。
        • 細(xì)致評估指標(biāo):GTA設(shè)計的評估指標(biāo)覆蓋工具調(diào)用的整個過程,從LLM的工具調(diào)用到執(zhí)行結(jié)果,提供對模型性能的全面評估。
        • 模型比較:通過比較不同模型在GTA上的表現(xiàn),揭示現(xiàn)有模型在處理真實(shí)世界問題時的工具使用瓶頸,為未來的通用工具智能體改進(jìn)提供方向。

        GTA的項目地址

        GTA的應(yīng)用場景

        • 智能助理開發(fā):GTA可用于評估和訓(xùn)練智能助理,使其更好地理解和執(zhí)行復(fù)雜的用戶請求,涉及多步驟的操作和多種工具的調(diào)用。
        • 多模態(tài)交互:在處理圖像、文本及其他多媒體內(nèi)容的場景中,GTA幫助模型學(xué)習(xí)如何結(jié)合多種輸入類型來解決問題。
        • 自動化客戶服務(wù):GTA可用于開發(fā)自動解決客戶問題的系統(tǒng),該系統(tǒng)需調(diào)用不同的工具和資源以提供準(zhǔn)確的答案和解決方案。
        • 教育和培訓(xùn):GTA作為教育工具,幫助學(xué)生理解如何設(shè)計和實(shí)現(xiàn)復(fù)雜任務(wù),這些任務(wù)需要多步驟推理和工具使用。
        • 研究與開發(fā):研究人員利用GTA測試和比較不同的LLMs,探索工具使用能力的新方法,推動AI技術(shù)的不斷進(jìn)步。

        常見問題

        • GTA的目標(biāo)是什么?:GTA旨在評估大型語言模型在現(xiàn)實(shí)場景中調(diào)用工具的能力,促進(jìn)智能體在多模態(tài)環(huán)境下的應(yīng)用。
        • GTA的評估指標(biāo)有哪些?:GTA的評估指標(biāo)包括指令遵循準(zhǔn)確率、工具選擇準(zhǔn)確率、參數(shù)預(yù)測準(zhǔn)確率、答案總結(jié)準(zhǔn)確率和最終答案準(zhǔn)確率。
        • GTA適合哪些應(yīng)用場景?:GTA可用于智能助理開發(fā)、自動化客戶服務(wù)、多模態(tài)交互、教育培訓(xùn)以及研究開發(fā)等多個領(lǐng)域。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文在线免费看视频| 亚洲国产精品成人久久久| 亚洲AV色吊丝无码| 99在线热视频只有精品免费| 亚洲综合伊人久久大杳蕉| 美女视频黄视大全视频免费的| 老司机永久免费网站在线观看| 亚洲一久久久久久久久| 好爽又高潮了毛片免费下载| 亚洲欧美日韩中文高清www777| 免费看少妇作爱视频| 99re6在线精品免费观看| 无码欧精品亚洲日韩一区| 日本免费人成视频在线观看| 亚洲国产成人精品无码区花野真一 | 亚洲不卡无码av中文字幕| 免费大片av手机看片| 伊人久久亚洲综合| 成人片黄网站色大片免费| 国产精品久久久久久亚洲小说| 亚洲成A人片在线观看无码3D| 亚洲精品在线免费看| 456亚洲人成在线播放网站| 日韩精品视频免费在线观看| 日日摸夜夜添夜夜免费视频| 亚洲精品tv久久久久久久久| 免费精品无码AV片在线观看| 思思久久99热免费精品6| 亚洲av一本岛在线播放| 亚洲va久久久噜噜噜久久男同| 91成年人免费视频| 在线观看亚洲网站| 亚洲一区在线视频| 亚洲av无码成h人动漫无遮挡 | MM1313亚洲精品无码久久| 久久久久噜噜噜亚洲熟女综合| 99久久免费精品视频| 国产精品综合专区中文字幕免费播放| 亚洲国产综合精品一区在线播放| 日本视频在线观看永久免费| 亚洲一级视频在线观看|