ShowUI是新加坡國立大學Show Lab與微軟攜手推出的視覺-語言-行動模型,旨在顯著提升圖形用戶界面(GUI)助手的工作效率。該模型通過UI引導的視覺令牌選擇來降低計算成本,以交錯的視覺-語言-行動流來整合GUI任務的多樣化需求,同時管理視覺-行動歷史以增強訓練效率。ShowUI使用了小規模但高質量的指令跟隨數據集,通過256K數據實現了75.1%的零樣本截圖定位準確率,并且訓練速度提升了1.4倍,展現出在GUI視覺代理領域的巨大潛力。
ShowUI是什么
ShowUI是一個先進的視覺-語言-行動模型,由新加坡國立大學Show Lab與微軟共同開發,目的是提高圖形用戶界面助手的工作效率。該模型通過UI引導的視覺令牌選擇來減少計算負擔,并采用交錯的視覺-語言-行動流來統一處理各種GUI任務,同時有效管理視覺-行動歷史,提升訓練的效率。
ShowUI的主要功能
- UI引導的視覺令牌選擇:將屏幕截圖轉化為UI連接圖,智能識別冗余關系,并在自注意力模塊中作為選擇令牌的依據,從而降低計算成本。
- 交錯視覺-語言-行動流:靈活整合GUI任務的多樣性,有效管理視覺-行動歷史,提升訓練效率。
- 高質量的GUI指令跟隨數據集:通過精心設計的數據和重采樣策略,解決數據類型不均衡問題,增強模型的準確性與效率。
- 零樣本截圖定位:具備在無需額外訓練的情況下直接理解并操作屏幕截圖的能力。
- GUI任務自動化:能夠自動執行如點擊、輸入等各種GUI任務,從而提高人機交互的效率。
ShowUI的技術原理
- UI引導的視覺令牌選擇:
- 將屏幕截圖細分為規則的補丁(patches),每個補丁作為一個節點。
- 識別相同RGB值的相鄰補丁,構建UI連接圖,將視覺冗余區域合并處理。
- 在自注意力模塊中,基于UI連接圖選擇性處理視覺令牌,以減少計算量。
- 交錯視覺-語言-行動流:
- 將GUI動作結構化為JSON格式,從而統一不同設備上的操作。
- 通過交替處理視覺、語言和行動數據,管理復雜的交互歷史。
- 在訓練中采用多輪對話方式,提高數據利用效率。
- 數據策劃與重采樣策略:
- 精心挑選和策劃高質量的訓練數據,而非簡單聚合所有可用數據源。
- 運用重采樣策略,解決不同設備和任務類型之間的數據不平衡問題。
- 高效處理高分辨率UI截圖:針對高分辨率UI截圖,優化模型以有效處理長令牌序列,降低計算負擔。
- 模型架構:
- 基于Qwen2-VL-2B模型,整合視覺編碼器和語言模型,處理視覺與文本數據。
- 結合特定的數據食譜和訓練策略,提升模型在GUI任務中的表現。
ShowUI的項目地址
- GitHub倉庫:https://github.com/showlab/ShowUI
- HuggingFace模型庫:https://huggingface.co/datasets/showlab/ShowUI-desktop-8K
- arXiv技術論文:https://arxiv.org/pdf/2411.17465
- 在線體驗Demo:https://huggingface.co/spaces/showlab/ShowUI
ShowUI的應用場景
- 網頁自動化:在網頁上自動執行點擊、輸入、滾動等操作,可用于自動化測試、數據抓取或模擬用戶行為。
- 移動應用測試:在移動應用中自動化執行多種用戶交互,如滑動、點擊和填寫表單,進行應用功能測試。
- 桌面軟件自動化:自動化處理桌面軟件中的重復性任務,如文件管理、數據輸入和設置調整等。
- 虛擬助手:作為虛擬助手的一部分,根據用戶的自然語言指令執行特定的GUI操作。
- 游戲自動化:在支持自動化腳本的游戲中自動執行角色移動、物品拾取和戰斗等操作。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...