CogAgent-9B – 智譜AI開源 GLM-PC 的基座模型
CogAgent-9B是什么
CogAgent-9B是一個(gè)專為Agent任務(wù)設(shè)計(jì)的模型,基于GLM-4V-9B進(jìn)行訓(xùn)練。它獨(dú)特之處在于僅依賴屏幕截圖作為輸入,無需依賴HTML等文本表示。這款模型不僅支持高分辨率圖像處理,還具備中英文雙語交互能力,能夠預(yù)測并執(zhí)行圖形用戶界面(GUI)操作,從而實(shí)現(xiàn)自動(dòng)化任務(wù)。CogAgent-9B在多個(gè)GUI操作數(shù)據(jù)集上表現(xiàn)出色,已經(jīng)開源,為大模型Agent生態(tài)的進(jìn)展提供了助力。它的應(yīng)用場景涵蓋個(gè)人電腦、手機(jī)、車載系統(tǒng)等多種基于GUI的交互環(huán)境。
CogAgent-9B的主要功能
- GUI理解與操作:CogAgent-9B能夠理解并操作圖形用戶界面,執(zhí)行如點(diǎn)擊按鈕、輸入文本等多種任務(wù)。
- 屏幕截圖輸入:模型僅需屏幕截圖作為輸入,無需附加文本表示手段,因而在多設(shè)備應(yīng)用中更加靈活。
- 高分辨率處理:支持高達(dá)1120×1120像素的高分辨率圖像輸入,能夠解析更復(fù)雜的視覺信息。
- 雙語交互:支持中文和英文的屏幕截圖及語言交互,提升了國際應(yīng)用的適應(yīng)性。
- 預(yù)測GUI操作:根據(jù)用戶指定的任務(wù)及先前操作,模型能夠預(yù)測下一步的GUI動(dòng)作。
- 自動(dòng)化任務(wù)執(zhí)行:CogAgent-9B可模擬用戶操作,自動(dòng)執(zhí)行一系列GUI任務(wù)。
- 跨平臺(tái)應(yīng)用:適用于個(gè)人電腦、手機(jī)及車載系統(tǒng)等多種基于GUI的場景。
- 性能領(lǐng)先:在多個(gè)GUI操作數(shù)據(jù)集上取得了卓越的成績,展現(xiàn)了其強(qiáng)大的性能。
CogAgent-9B的技術(shù)原理
- 視覺語言模型(VLM):CogAgent-9B構(gòu)建在強(qiáng)大的視覺語言模型GLM-4V-9B之上,能夠同時(shí)處理視覺數(shù)據(jù)(如屏幕截圖)與文本信息,理解和操作GUI元素。
- 雙流注意力機(jī)制:該模型采用雙流注意力機(jī)制,將視覺元素(如按鈕和圖標(biāo))映射到對(duì)應(yīng)的文本標(biāo)簽或描述,增強(qiáng)了對(duì)用戶意圖的預(yù)測及相關(guān)操作的執(zhí)行能力。
- GUI Grounding預(yù)訓(xùn)練:在預(yù)訓(xùn)練階段,CogAgent-9B引入了GUI Grounding預(yù)訓(xùn)練方法,通過屏幕截圖和布局信息建立界面子區(qū)域與布局表示的對(duì)應(yīng)關(guān)系,提升了對(duì)視覺輸入和GUI界面的基礎(chǔ)理解。
- 豐富的數(shù)據(jù)集:CogAgent-9B團(tuán)隊(duì)廣泛收集并整合多種數(shù)據(jù)集,包括無監(jiān)督數(shù)據(jù)和GUI指令微調(diào)數(shù)據(jù)集,為模型提供了豐富的訓(xùn)練和測試基礎(chǔ)。
- 優(yōu)化的預(yù)訓(xùn)練與后訓(xùn)練策略:在預(yù)訓(xùn)練階段,CogAgent-9B引入GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務(wù),以構(gòu)建界面子區(qū)域與布局表征的對(duì)應(yīng)關(guān)系。在后訓(xùn)練階段,采用了更科學(xué)的后訓(xùn)練策略,使模型具備更強(qiáng)的分析、推理和預(yù)測能力。
- 模型推理與思維鏈優(yōu)化:CogAgent-9B將推理鏈分解為狀態(tài)(當(dāng)前屏幕狀態(tài))、計(jì)劃(全局計(jì)劃)、行動(dòng)(自然語言描述的下一步)和操作(形式語言描述的下一步),通過隨機(jī)采樣混合多種模式訓(xùn)練數(shù)據(jù),靈活調(diào)整和控制推理過程中的輸出。
- 完善的動(dòng)作空間:CogAgent-9B明確了基礎(chǔ)動(dòng)作空間,并新增了LLM、QUOTE_TEXT、LAUNCH等高級(jí)動(dòng)作,增強(qiáng)了模型的工具使用和交互能力。
CogAgent-9B的項(xiàng)目地址
- Github倉庫:https://github.com/THUDM/CogAgent
- HuggingFace模型庫:https://huggingface.co/THUDM/cogagent-9b-20241220
CogAgent-9B的應(yīng)用場景
- 自動(dòng)化測試:在軟件開發(fā)領(lǐng)域,CogAgent-9B可用于自動(dòng)化測試,模擬用戶操作以評(píng)估應(yīng)用程序的GUI性能,提高測試效率與覆蓋率。
- 智能助手:作為智能個(gè)人助理,CogAgent-9B能夠幫助用戶自動(dòng)化完成日常任務(wù),如日程安排與郵件處理等。
- 客戶服務(wù):在客戶服務(wù)行業(yè),CogAgent-9B可以通過自動(dòng)化操作為客服人員提供支持,快速響應(yīng)客戶需求并執(zhí)行相關(guān)操作。
- 智能家居控制:CogAgent-9B能夠集成到智能家居系統(tǒng)中,通過GUI控制各種智能設(shè)備。
- 智能座艙:在汽車領(lǐng)域,CogAgent-9B可以用于智能座艙系統(tǒng),通過GUI與車載信息娛樂系統(tǒng)互動(dòng),提供更安全便捷的駕駛體驗(yàn)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...