ShowUI:新加坡國(guó)立與微軟合作推出視覺(jué)語(yǔ)言操作模型實(shí)現(xiàn)高效GUI自動(dòng)化
ShowUI是新加坡國(guó)立大學(xué)Show Lab與微軟攜手推出的視覺(jué)-語(yǔ)言-行動(dòng)模型,旨在顯著提升圖形用戶(hù)界面(GUI)助手的工作效率。該模型通過(guò)UI引導(dǎo)的視覺(jué)令牌選擇來(lái)降低計(jì)算成本,以交錯(cuò)的視覺(jué)-語(yǔ)言-行動(dòng)流來(lái)整合GUI任務(wù)的多樣化需求,同時(shí)管理視覺(jué)-行動(dòng)歷史以增強(qiáng)訓(xùn)練效率。ShowUI使用了小規(guī)模但高質(zhì)量的指令跟隨數(shù)據(jù)集,通過(guò)256K數(shù)據(jù)實(shí)現(xiàn)了75.1%的零樣本截圖定位準(zhǔn)確率,并且訓(xùn)練速度提升了1.4倍,展現(xiàn)出在GUI視覺(jué)代理領(lǐng)域的巨大潛力。
ShowUI是什么
ShowUI是一個(gè)先進(jìn)的視覺(jué)-語(yǔ)言-行動(dòng)模型,由新加坡國(guó)立大學(xué)Show Lab與微軟共同開(kāi)發(fā),目的是提高圖形用戶(hù)界面助手的工作效率。該模型通過(guò)UI引導(dǎo)的視覺(jué)令牌選擇來(lái)減少計(jì)算負(fù)擔(dān),并采用交錯(cuò)的視覺(jué)-語(yǔ)言-行動(dòng)流來(lái)統(tǒng)一處理各種GUI任務(wù),同時(shí)有效管理視覺(jué)-行動(dòng)歷史,提升訓(xùn)練的效率。

ShowUI的主要功能
- UI引導(dǎo)的視覺(jué)令牌選擇:將屏幕截圖轉(zhuǎn)化為UI連接圖,智能識(shí)別冗余關(guān)系,并在自注意力模塊中作為選擇令牌的依據(jù),從而降低計(jì)算成本。
- 交錯(cuò)視覺(jué)-語(yǔ)言-行動(dòng)流:靈活整合GUI任務(wù)的多樣性,有效管理視覺(jué)-行動(dòng)歷史,提升訓(xùn)練效率。
- 高質(zhì)量的GUI指令跟隨數(shù)據(jù)集:通過(guò)精心設(shè)計(jì)的數(shù)據(jù)和重采樣策略,解決數(shù)據(jù)類(lèi)型不均衡問(wèn)題,增強(qiáng)模型的準(zhǔn)確性與效率。
- 零樣本截圖定位:具備在無(wú)需額外訓(xùn)練的情況下直接理解并操作屏幕截圖的能力。
- GUI任務(wù)自動(dòng)化:能夠自動(dòng)執(zhí)行如點(diǎn)擊、輸入等各種GUI任務(wù),從而提高人機(jī)交互的效率。
ShowUI的技術(shù)原理
- UI引導(dǎo)的視覺(jué)令牌選擇:
- 將屏幕截圖細(xì)分為規(guī)則的補(bǔ)丁(patches),每個(gè)補(bǔ)丁作為一個(gè)節(jié)點(diǎn)。
- 識(shí)別相同RGB值的相鄰補(bǔ)丁,構(gòu)建UI連接圖,將視覺(jué)冗余區(qū)域合并處理。
- 在自注意力模塊中,基于UI連接圖選擇性處理視覺(jué)令牌,以減少計(jì)算量。
- 交錯(cuò)視覺(jué)-語(yǔ)言-行動(dòng)流:
- 將GUI動(dòng)作結(jié)構(gòu)化為JSON格式,從而統(tǒng)一不同設(shè)備上的操作。
- 通過(guò)交替處理視覺(jué)、語(yǔ)言和行動(dòng)數(shù)據(jù),管理復(fù)雜的交互歷史。
- 在訓(xùn)練中采用多輪對(duì)話方式,提高數(shù)據(jù)利用效率。
- 數(shù)據(jù)策劃與重采樣策略:
- 精心挑選和策劃高質(zhì)量的訓(xùn)練數(shù)據(jù),而非簡(jiǎn)單聚合所有可用數(shù)據(jù)源。
- 運(yùn)用重采樣策略,解決不同設(shè)備和任務(wù)類(lèi)型之間的數(shù)據(jù)不平衡問(wèn)題。
- 高效處理高分辨率UI截圖:針對(duì)高分辨率UI截圖,優(yōu)化模型以有效處理長(zhǎng)令牌序列,降低計(jì)算負(fù)擔(dān)。
- 模型架構(gòu):
- 基于Qwen2-VL-2B模型,整合視覺(jué)編碼器和語(yǔ)言模型,處理視覺(jué)與文本數(shù)據(jù)。
- 結(jié)合特定的數(shù)據(jù)食譜和訓(xùn)練策略,提升模型在GUI任務(wù)中的表現(xiàn)。
ShowUI的項(xiàng)目地址
- GitHub倉(cāng)庫(kù):https://github.com/showlab/ShowUI
- HuggingFace模型庫(kù):https://huggingface.co/datasets/showlab/ShowUI-desktop-8K
- arXiv技術(shù)論文:https://arxiv.org/pdf/2411.17465
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/showlab/ShowUI
ShowUI的應(yīng)用場(chǎng)景
- 網(wǎng)頁(yè)自動(dòng)化:在網(wǎng)頁(yè)上自動(dòng)執(zhí)行點(diǎn)擊、輸入、滾動(dòng)等操作,可用于自動(dòng)化測(cè)試、數(shù)據(jù)抓取或模擬用戶(hù)行為。
- 移動(dòng)應(yīng)用測(cè)試:在移動(dòng)應(yīng)用中自動(dòng)化執(zhí)行多種用戶(hù)交互,如滑動(dòng)、點(diǎn)擊和填寫(xiě)表單,進(jìn)行應(yīng)用功能測(cè)試。
- 桌面軟件自動(dòng)化:自動(dòng)化處理桌面軟件中的重復(fù)性任務(wù),如文件管理、數(shù)據(jù)輸入和設(shè)置調(diào)整等。
- 虛擬助手:作為虛擬助手的一部分,根據(jù)用戶(hù)的自然語(yǔ)言指令執(zhí)行特定的GUI操作。
- 游戲自動(dòng)化:在支持自動(dòng)化腳本的游戲中自動(dòng)執(zhí)行角色移動(dòng)、物品拾取和戰(zhàn)斗等操作。
# AI工具# AI項(xiàng)目和框架# 可視化分析工具# 多平臺(tái)支持# 實(shí)時(shí)數(shù)據(jù)展示# 智能界面設(shè)計(jì)# 用戶(hù)交互優(yōu)化
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)