AGUVIS – 香港大合 Salesforce 推出統一純視覺的GUI自動化框架
AGUVIS是什么
AGUVIS是由香港大學與Salesforce聯手開發的一個統一的純視覺框架,專門為自主圖形用戶界面(GUI)智能體設計。該框架能夠在各種平臺(包括網頁、桌面和移動設備)上進行操作。AGUVIS通過將圖像觀察與自然語言指令相結合,實現了視覺元素的有效關聯,并采用統一的動作空間來增強跨平臺的適應能力。它結合了顯式的規劃和推理能力,提升了智能體在復雜數字環境中的自主導航與交互性能。通過大規模的數據集和兩階段的訓練流程,AGUVIS在離線與在線場景中展現了超越目前技術的卓越表現,成為首個能完成任務而不依賴外部閉源模型的純視覺GUI代理。
AGUVIS的主要功能
- 跨平臺自主GUI交互:在多種平臺(如網站、桌面應用和移動設備)上自主執行圖形用戶界面任務。
- 圖像觀察與自然語言指令的融合:將自然語言指令與視覺界面元素進行映射,促進基于圖像的交互。
- 顯式規劃與推理能力:集成規劃與推理功能,使智能體能夠分析環境并生成有效的操作步驟。
- 大規模數據集構建:創建一個包含多模態推理和基礎的GUI代理軌跡的大規模數據集。
AGUVIS的技術原理
- 純視覺框架:采用純視覺的方法,將界面觀察統一為圖像,并將指令基于圖像坐標,提高了跨環境的適應能力。
- 統一動作空間:通過標準化的動作空間和插件系統,實現不同平臺間的一致學習與交互。
- 視覺-語言模型(VLM):VLM作為基礎組件,如Qwen2-VL,處理任意分辨率的高分辨率圖像,并將其動態轉換為視覺令牌。
- 兩階段訓練策略:
- 第一階段:基礎訓練:專注于使模型理解并與單個GUI截圖中的對象進行交互。
- 第二階段:規劃與推理訓練:在基礎訓練的基礎上,加入復雜的決策制定與推理過程,通過多樣化的代理軌跡數據進行模型訓練。
- 內省式獨白(Inner Monologue):在訓練過程中生成詳細的內省式獨白,包含觀察描述、思考過程以及低級動作指令,模擬智能體的思考方式,提升其規劃能力。
- 插件系統:為無法直接映射到現有動作空間的操作提供靈活性,使模型能夠適應新的環境和任務。
AGUVIS的項目地址
- 項目官網:aguvis-project
- GitHub倉庫:https://github.com/xlang-ai/aguvis
- arXiv技術論文:https://arxiv.org/pdf/2412.04454
AGUVIS的應用場景
- 自動化測試:在軟件開發中自動化測試多種圖形用戶界面,包括網站、桌面應用程序和移動應用,以確保軟件的穩定性和可靠性。
- 虛擬助手:作為虛擬助手,幫助用戶自動化日常計算機任務,如日程管理、電子郵件處理和數據輸入。
- 業務流程自動化:在企業中自動執行特定的業務流程,如財務報告生成和客戶數據管理,提高工作效率。
- 教育與培訓:創建交互式教育軟件,模擬真實世界的GUI操作,供教學和培訓之用。
- 客戶服務自動化:在客戶服務領域自動處理客戶請求,通過GUI界面提供快速的響應和解決方案。
常見問題
如果您有關于AGUVIS的使用或技術的疑問,可以訪問我們的官網或GitHub倉庫,獲取最新的文檔和支持信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...