<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        CogAgent-9B

        AI工具9個(gè)月前發(fā)布 AI工具集
        644 0 0

        CogAgent-9B – 智譜AI開源 GLM-PC 的基座模型

        CogAgent-9B是什么

        CogAgent-9B是一個(gè)專為Agent任務(wù)設(shè)計(jì)的模型,基于GLM-4V-9B進(jìn)行訓(xùn)練。它獨(dú)特之處在于僅依賴屏幕截圖作為輸入,無需依賴HTML等文本表示。這款模型不僅支持高分辨率圖像處理,還具備中英文雙語交互能力,能夠預(yù)測并執(zhí)行圖形用戶界面(GUI)操作,從而實(shí)現(xiàn)自動(dòng)化任務(wù)。CogAgent-9B在多個(gè)GUI操作數(shù)據(jù)集上表現(xiàn)出色,已經(jīng)開源,為大模型Agent生態(tài)的進(jìn)展提供了助力。它的應(yīng)用場景涵蓋個(gè)人電腦、手機(jī)、車載系統(tǒng)等多種基于GUI的交互環(huán)境。

        CogAgent-9B

        CogAgent-9B的主要功能

        • GUI理解與操作:CogAgent-9B能夠理解并操作圖形用戶界面,執(zhí)行如點(diǎn)擊按鈕、輸入文本等多種任務(wù)。
        • 屏幕截圖輸入:模型僅需屏幕截圖作為輸入,無需附加文本表示手段,因而在多設(shè)備應(yīng)用中更加靈活。
        • 高分辨率處理:支持高達(dá)1120×1120像素的高分辨率圖像輸入,能夠解析更復(fù)雜的視覺信息。
        • 雙語交互:支持中文和英文的屏幕截圖及語言交互,提升了國際應(yīng)用的適應(yīng)性。
        • 預(yù)測GUI操作:根據(jù)用戶指定的任務(wù)及先前操作,模型能夠預(yù)測下一步的GUI動(dòng)作。
        • 自動(dòng)化任務(wù)執(zhí)行:CogAgent-9B可模擬用戶操作,自動(dòng)執(zhí)行一系列GUI任務(wù)。
        • 跨平臺(tái)應(yīng)用:適用于個(gè)人電腦、手機(jī)及車載系統(tǒng)等多種基于GUI的場景。
        • 性能領(lǐng)先:在多個(gè)GUI操作數(shù)據(jù)集上取得了卓越的成績,展現(xiàn)了其強(qiáng)大的性能。

        CogAgent-9B的技術(shù)原理

        • 視覺語言模型(VLM):CogAgent-9B構(gòu)建在強(qiáng)大的視覺語言模型GLM-4V-9B之上,能夠同時(shí)處理視覺數(shù)據(jù)(如屏幕截圖)與文本信息,理解和操作GUI元素。
        • 雙流注意力機(jī)制:該模型采用雙流注意力機(jī)制,將視覺元素(如按鈕和圖標(biāo))映射到對(duì)應(yīng)的文本標(biāo)簽或描述,增強(qiáng)了對(duì)用戶意圖的預(yù)測及相關(guān)操作的執(zhí)行能力。
        • GUI Grounding預(yù)訓(xùn)練:在預(yù)訓(xùn)練階段,CogAgent-9B引入了GUI Grounding預(yù)訓(xùn)練方法,通過屏幕截圖和布局信息建立界面子區(qū)域與布局表示的對(duì)應(yīng)關(guān)系,提升了對(duì)視覺輸入和GUI界面的基礎(chǔ)理解。
        • 豐富的數(shù)據(jù)集:CogAgent-9B團(tuán)隊(duì)廣泛收集并整合多種數(shù)據(jù)集,包括無監(jiān)督數(shù)據(jù)和GUI指令微調(diào)數(shù)據(jù)集,為模型提供了豐富的訓(xùn)練和測試基礎(chǔ)。
        • 優(yōu)化的預(yù)訓(xùn)練與后訓(xùn)練策略:在預(yù)訓(xùn)練階段,CogAgent-9B引入GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務(wù),以構(gòu)建界面子區(qū)域與布局表征的對(duì)應(yīng)關(guān)系。在后訓(xùn)練階段,采用了更科學(xué)的后訓(xùn)練策略,使模型具備更強(qiáng)的分析、推理和預(yù)測能力。
        • 模型推理與思維鏈優(yōu)化:CogAgent-9B將推理鏈分解為狀態(tài)(當(dāng)前屏幕狀態(tài))、計(jì)劃(全局計(jì)劃)、行動(dòng)(自然語言描述的下一步)和操作(形式語言描述的下一步),通過隨機(jī)采樣混合多種模式訓(xùn)練數(shù)據(jù),靈活調(diào)整和控制推理過程中的輸出。
        • 完善的動(dòng)作空間:CogAgent-9B明確了基礎(chǔ)動(dòng)作空間,并新增了LLM、QUOTE_TEXT、LAUNCH等高級(jí)動(dòng)作,增強(qiáng)了模型的工具使用和交互能力。

        CogAgent-9B的項(xiàng)目地址

        CogAgent-9B的應(yīng)用場景

        • 自動(dòng)化測試:在軟件開發(fā)領(lǐng)域,CogAgent-9B可用于自動(dòng)化測試,模擬用戶操作以評(píng)估應(yīng)用程序的GUI性能,提高測試效率與覆蓋率。
        • 智能助手:作為智能個(gè)人助理,CogAgent-9B能夠幫助用戶自動(dòng)化完成日常任務(wù),如日程安排與郵件處理等。
        • 客戶服務(wù):在客戶服務(wù)行業(yè),CogAgent-9B可以通過自動(dòng)化操作為客服人員提供支持,快速響應(yīng)客戶需求并執(zhí)行相關(guān)操作。
        • 智能家居控制:CogAgent-9B能夠集成到智能家居系統(tǒng)中,通過GUI控制各種智能設(shè)備。
        • 智能座艙:在汽車領(lǐng)域,CogAgent-9B可以用于智能座艙系統(tǒng),通過GUI與車載信息娛樂系統(tǒng)互動(dòng),提供更安全便捷的駕駛體驗(yàn)。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: **aaaaa毛片免费| 亚洲综合另类小说色区| 国产免费看插插插视频| 在线亚洲午夜理论AV大片| 亚洲av午夜精品无码专区| 免费福利资源站在线视频| 美女视频黄是免费的网址| 亚洲午夜无码片在线观看影院猛| 亚洲黄色免费电影| 久久性生大片免费观看性| 四虎www免费人成| 亚洲人成网站影音先锋播放| 久久久久久亚洲精品无码| 无码人妻精品中文字幕免费| 免费a在线观看播放| 精品亚洲国产成人| 日韩电影免费在线观看中文字幕| 四虎永久免费地址在线网站| 亚洲一级视频在线观看| 欧洲人免费视频网站在线| 免费一级毛片在级播放| 自拍偷区亚洲国内自拍| 57pao国产成永久免费视频| 国产亚洲欧洲Aⅴ综合一区| 亚洲欧美国产欧美色欲| 久视频精品免费观看99| 久久久无码精品亚洲日韩蜜桃 | 免费一区二区三区四区五区| 亚洲最大成人网色香蕉| 亚洲成人免费在线| 亚洲日韩精品一区二区三区无码| 国产精品亚洲一区二区三区久久| 91香蕉视频免费| 亚洲码一区二区三区| 日韩在线不卡免费视频一区| 国产乱辈通伦影片在线播放亚洲| 国产亚洲视频在线播放大全| 暖暖日本免费在线视频| 国产精品亚洲一区二区麻豆| 国产成在线观看免费视频| 亚洲人成在线精品|