CogAgent-9B – 智譜AI開源 GLM-PC 的基座模型
CogAgent-9B是什么
CogAgent-9B是一個專為Agent任務設計的模型,基于GLM-4V-9B進行訓練。它獨特之處在于僅依賴屏幕截圖作為輸入,無需依賴HTML等文本表示。這款模型不僅支持高分辨率圖像處理,還具備中英文雙語交互能力,能夠預測并執行圖形用戶界面(GUI)操作,從而實現自動化任務。CogAgent-9B在多個GUI操作數據集上表現出色,已經開源,為大模型Agent生態的進展提供了助力。它的應用場景涵蓋個人電腦、手機、車載系統等多種基于GUI的交互環境。
CogAgent-9B的主要功能
- GUI理解與操作:CogAgent-9B能夠理解并操作圖形用戶界面,執行如點擊按鈕、輸入文本等多種任務。
- 屏幕截圖輸入:模型僅需屏幕截圖作為輸入,無需附加文本表示手段,因而在多設備應用中更加靈活。
- 高分辨率處理:支持高達1120×1120像素的高分辨率圖像輸入,能夠解析更復雜的視覺信息。
- 雙語交互:支持中文和英文的屏幕截圖及語言交互,提升了國際應用的適應性。
- 預測GUI操作:根據用戶指定的任務及先前操作,模型能夠預測下一步的GUI動作。
- 自動化任務執行:CogAgent-9B可模擬用戶操作,自動執行一系列GUI任務。
- 跨平臺應用:適用于個人電腦、手機及車載系統等多種基于GUI的場景。
- 性能領先:在多個GUI操作數據集上取得了卓越的成績,展現了其強大的性能。
CogAgent-9B的技術原理
- 視覺語言模型(VLM):CogAgent-9B構建在強大的視覺語言模型GLM-4V-9B之上,能夠同時處理視覺數據(如屏幕截圖)與文本信息,理解和操作GUI元素。
- 雙流注意力機制:該模型采用雙流注意力機制,將視覺元素(如按鈕和圖標)映射到對應的文本標簽或描述,增強了對用戶意圖的預測及相關操作的執行能力。
- GUI Grounding預訓練:在預訓練階段,CogAgent-9B引入了GUI Grounding預訓練方法,通過屏幕截圖和布局信息建立界面子區域與布局表示的對應關系,提升了對視覺輸入和GUI界面的基礎理解。
- 豐富的數據集:CogAgent-9B團隊廣泛收集并整合多種數據集,包括無監督數據和GUI指令微調數據集,為模型提供了豐富的訓練和測試基礎。
- 優化的預訓練與后訓練策略:在預訓練階段,CogAgent-9B引入GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務,以構建界面子區域與布局表征的對應關系。在后訓練階段,采用了更科學的后訓練策略,使模型具備更強的分析、推理和預測能力。
- 模型推理與思維鏈優化:CogAgent-9B將推理鏈分解為狀態(當前屏幕狀態)、計劃(全局計劃)、行動(自然語言描述的下一步)和操作(形式語言描述的下一步),通過隨機采樣混合多種模式訓練數據,靈活調整和控制推理過程中的輸出。
- 完善的動作空間:CogAgent-9B明確了基礎動作空間,并新增了LLM、QUOTE_TEXT、LAUNCH等高級動作,增強了模型的工具使用和交互能力。
CogAgent-9B的項目地址
- Github倉庫:https://github.com/THUDM/CogAgent
- HuggingFace模型庫:https://huggingface.co/THUDM/cogagent-9b-20241220
CogAgent-9B的應用場景
- 自動化測試:在軟件開發領域,CogAgent-9B可用于自動化測試,模擬用戶操作以評估應用程序的GUI性能,提高測試效率與覆蓋率。
- 智能助手:作為智能個人助理,CogAgent-9B能夠幫助用戶自動化完成日常任務,如日程安排與郵件處理等。
- 客戶服務:在客戶服務行業,CogAgent-9B可以通過自動化操作為客服人員提供支持,快速響應客戶需求并執行相關操作。
- 智能家居控制:CogAgent-9B能夠集成到智能家居系統中,通過GUI控制各種智能設備。
- 智能座艙:在汽車領域,CogAgent-9B可以用于智能座艙系統,通過GUI與車載信息娛樂系統互動,提供更安全便捷的駕駛體驗。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...