ShowUI：新加坡國立與微軟合作推出視覺語言操作模型實現高效GUI自動化

ShowUI是新加坡國立大學Show Lab與微軟攜手推出的視覺-語言-行動模型，旨在顯著提升圖形用戶界面（GUI）助手的工作效率。該模型通過UI引導的視覺令牌選擇來降低計算成本，以交錯的視覺-語言-行動流來整合GUI任務的多樣化需求，同時管理視覺-行動歷史以增強訓練效率。ShowUI使用了小規模但高質量的指令跟隨數據集，通過256K數據實現了75.1%的零樣本截圖定位準確率，并且訓練速度提升了1.4倍，展現出在GUI視覺代理領域的巨大潛力。

ShowUI是什么

ShowUI是一個先進的視覺-語言-行動模型，由新加坡國立大學Show Lab與微軟共同開發，目的是提高圖形用戶界面助手的工作效率。該模型通過UI引導的視覺令牌選擇來減少計算負擔，并采用交錯的視覺-語言-行動流來統一處理各種GUI任務，同時有效管理視覺-行動歷史，提升訓練的效率。

ShowUI的主要功能

UI引導的視覺令牌選擇：將屏幕截圖轉化為UI連接圖，智能識別冗余關系，并在自注意力模塊中作為選擇令牌的依據，從而降低計算成本。
交錯視覺-語言-行動流：靈活整合GUI任務的多樣性，有效管理視覺-行動歷史，提升訓練效率。
高質量的GUI指令跟隨數據集：通過精心設計的數據和重采樣策略，解決數據類型不均衡問題，增強模型的準確性與效率。
零樣本截圖定位：具備在無需額外訓練的情況下直接理解并操作屏幕截圖的能力。
GUI任務自動化：能夠自動執行如點擊、輸入等各種GUI任務，從而提高人機交互的效率。

ShowUI的技術原理

UI引導的視覺令牌選擇：
- 將屏幕截圖細分為規則的補丁（patches），每個補丁作為一個節點。
- 識別相同RGB值的相鄰補丁，構建UI連接圖，將視覺冗余區域合并處理。
- 在自注意力模塊中，基于UI連接圖選擇性處理視覺令牌，以減少計算量。
交錯視覺-語言-行動流：
- 將GUI動作結構化為JSON格式，從而統一不同設備上的操作。
- 通過交替處理視覺、語言和行動數據，管理復雜的交互歷史。
- 在訓練中采用多輪對話方式，提高數據利用效率。
數據策劃與重采樣策略：
- 精心挑選和策劃高質量的訓練數據，而非簡單聚合所有可用數據源。
- 運用重采樣策略，解決不同設備和任務類型之間的數據不平衡問題。
高效處理高分辨率UI截圖：針對高分辨率UI截圖，優化模型以有效處理長令牌序列，降低計算負擔。
模型架構：
- 基于Qwen2-VL-2B模型，整合視覺編碼器和語言模型，處理視覺與文本數據。
- 結合特定的數據食譜和訓練策略，提升模型在GUI任務中的表現。