CogAgent-9B

CogAgent-9B – 智譜AI開源 GLM-PC 的基座模型

CogAgent-9B是什么

CogAgent-9B是一個專為Agent任務設計的模型，基于GLM-4V-9B進行訓練。它獨特之處在于僅依賴屏幕截圖作為輸入，無需依賴HTML等文本表示。這款模型不僅支持高分辨率圖像處理，還具備中英文雙語交互能力，能夠預測并執行圖形用戶界面（GUI）操作，從而實現自動化任務。CogAgent-9B在多個GUI操作數據集上表現出色，已經開源，為大模型Agent生態的進展提供了助力。它的應用場景涵蓋個人電腦、手機、車載系統等多種基于GUI的交互環境。

CogAgent-9B

CogAgent-9B的主要功能

GUI理解與操作：CogAgent-9B能夠理解并操作圖形用戶界面，執行如點擊按鈕、輸入文本等多種任務。
屏幕截圖輸入：模型僅需屏幕截圖作為輸入，無需附加文本表示手段，因而在多設備應用中更加靈活。
高分辨率處理：支持高達1120×1120像素的高分辨率圖像輸入，能夠解析更復雜的視覺信息。
雙語交互：支持中文和英文的屏幕截圖及語言交互，提升了國際應用的適應性。
預測GUI操作：根據用戶指定的任務及先前操作，模型能夠預測下一步的GUI動作。
自動化任務執行：CogAgent-9B可模擬用戶操作，自動執行一系列GUI任務。
跨平臺應用：適用于個人電腦、手機及車載系統等多種基于GUI的場景。
性能領先：在多個GUI操作數據集上取得了卓越的成績，展現了其強大的性能。

CogAgent-9B的技術原理

視覺語言模型（VLM）：CogAgent-9B構建在強大的視覺語言模型GLM-4V-9B之上，能夠同時處理視覺數據（如屏幕截圖）與文本信息，理解和操作GUI元素。
雙流注意力機制：該模型采用雙流注意力機制，將視覺元素（如按鈕和圖標）映射到對應的文本標簽或描述，增強了對用戶意圖的預測及相關操作的執行能力。
GUI Grounding預訓練：在預訓練階段，CogAgent-9B引入了GUI Grounding預訓練方法，通過屏幕截圖和布局信息建立界面子區域與布局表示的對應關系，提升了對視覺輸入和GUI界面的基礎理解。
豐富的數據集：CogAgent-9B團隊廣泛收集并整合多種數據集，包括無監督數據和GUI指令微調數據集，為模型提供了豐富的訓練和測試基礎。
優化的預訓練與后訓練策略：在預訓練階段，CogAgent-9B引入GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任務，以構建界面子區域與布局表征的對應關系。在后訓練階段，采用了更科學的后訓練策略，使模型具備更強的分析、推理和預測能力。
模型推理與思維鏈優化：CogAgent-9B將推理鏈分解為狀態（當前屏幕狀態）、計劃（全局計劃）、行動（自然語言描述的下一步）和操作（形式語言描述的下一步），通過隨機采樣混合多種模式訓練數據，靈活調整和控制推理過程中的輸出。
完善的動作空間：CogAgent-9B明確了基礎動作空間，并新增了LLM、QUOTE_TEXT、LAUNCH等高級動作，增強了模型的工具使用和交互能力。