AGUVIS

AGUVIS – 香港大合 Salesforce 推出統一純視覺的GUI自動化框架

AGUVIS是什么

AGUVIS是由香港大學與Salesforce聯手開發(fā)的一個統一的純視覺框架，專門為自主圖形用戶界面（GUI）智能體設計。該框架能夠在各種平臺（包括網頁、桌面和移動設備）上進行操作。AGUVIS通過將圖像觀察與自然語言指令相結合，實現了視覺元素的有效關聯，并采用統一的動作空間來增強跨平臺的適應能力。它結合了顯式的規(guī)劃和推理能力，提升了智能體在復雜數字環(huán)境中的自主導航與交互性能。通過大規(guī)模的數據集和兩階段的訓練流程，AGUVIS在離線與在線場景中展現了超越目前技術的卓越表現，成為首個能完成任務而不依賴外部閉源模型的純視覺GUI代理。

AGUVIS

AGUVIS的主要功能

跨平臺自主GUI交互：在多種平臺（如網站、桌面應用和移動設備）上自主執(zhí)行圖形用戶界面任務。
圖像觀察與自然語言指令的融合：將自然語言指令與視覺界面元素進行映射，促進基于圖像的交互。
顯式規(guī)劃與推理能力：集成規(guī)劃與推理功能，使智能體能夠分析環(huán)境并生成有效的操作步驟。
大規(guī)模數據集構建：創(chuàng)建一個包含多模態(tài)推理和基礎的GUI代理軌跡的大規(guī)模數據集。

AGUVIS的技術原理

純視覺框架：采用純視覺的方法，將界面觀察統一為圖像，并將指令基于圖像坐標，提高了跨環(huán)境的適應能力。
統一動作空間：通過標準化的動作空間和插件系統，實現不同平臺間的一致學習與交互。
視覺-語言模型（VLM）：VLM作為基礎組件，如Qwen2-VL，處理任意分辨率的高分辨率圖像，并將其動態(tài)轉換為視覺令牌。
兩階段訓練策略：
- 第一階段：基礎訓練：專注于使模型理解并與單個GUI截圖中的對象進行交互。
- 第二階段：規(guī)劃與推理訓練：在基礎訓練的基礎上，加入復雜的決策制定與推理過程，通過多樣化的代理軌跡數據進行模型訓練。
內省式獨白（Inner Monologue）：在訓練過程中生成詳細的內省式獨白，包含觀察描述、思考過程以及低級動作指令，模擬智能體的思考方式，提升其規(guī)劃能力。
插件系統：為無法直接映射到現有動作空間的操作提供靈活性，使模型能夠適應新的環(huán)境和任務。