Aria-UI – 港大聯(lián)合 Rhymes AI 開源面向 GUI 智能交互的多模態(tài)模型
Aria-UI是什么
Aria-UI是由香港大學(xué)與Rhymes AI聯(lián)合開發(fā)的一個大型多模態(tài)模型,旨在處理圖形用戶界面(GUI)中的定位任務(wù)。該模型采用純視覺的方法,不依賴于HTML或AXTree等輔助輸入,通過大規(guī)模的多樣化數(shù)據(jù)合成流程,從Common Crawl及公開數(shù)據(jù)中生成高質(zhì)量的元素描述和指令樣本,能夠靈活適應(yīng)不同環(huán)境下的指令表達(dá)。Aria-UI創(chuàng)新性地整合了動態(tài)動作歷史信息,利用文本或文本-圖像交錯格式增強(qiáng)模型在多步任務(wù)場景中的定位能力。經(jīng)過廣泛的基準(zhǔn)測試,包括離線和在線代理任務(wù),Aria-UI展現(xiàn)出卓越的性能,顯現(xiàn)出強(qiáng)大的零樣本泛化能力和跨平臺適應(yīng)性,是解決通用GUI定位任務(wù)的理想選擇。
Aria-UI的主要功能
- GUI元素定位:能夠?qū)⒄Z言指令精確映射到GUI中的目標(biāo)元素,從而實(shí)現(xiàn)元素的準(zhǔn)確定位,為后續(xù)交互操作奠定基礎(chǔ)。
- 多模態(tài)輸入處理:支持處理包括GUI圖像、文本指令及動作歷史等多種輸入模態(tài),充分理解和利用多模態(tài)數(shù)據(jù)中的豐富信息。
- 多樣化指令適應(yīng):通過大規(guī)模、多樣化的數(shù)據(jù)合成流程生成的指令樣本,能夠有效適應(yīng)不同環(huán)境下的各種指令表達(dá)方式。
- 動態(tài)上下文理解:整合動態(tài)動作歷史信息,采用文本或文本-圖像交錯格式,在多步任務(wù)場景中理解當(dāng)前的動態(tài)上下文,為準(zhǔn)確的元素定位提供重要參考。
- 高分辨率圖像處理:支持高達(dá)3920×2940的圖像分辨率,能夠?qū)D像分割成小塊進(jìn)行處理,顯著擴(kuò)展可處理的圖像尺寸范圍。
Aria-UI的技術(shù)原理
- 純視覺方法:該模型通過純視覺方法,直接從GUI圖像中提取視覺特征,利用視覺信息進(jìn)行目標(biāo)元素的理解與定位。
- 多模態(tài)MoE模型:基于Aria多模態(tài)MoE(Mixture of Experts)模型構(gòu)建,具有3.9B的激活參數(shù),特別擅長處理多模態(tài)數(shù)據(jù)。
- 數(shù)據(jù)合成與訓(xùn)練:采用兩階段的數(shù)據(jù)合成流程,從Common Crawl及公開數(shù)據(jù)中生成高質(zhì)量的元素描述與多樣化指令樣本,覆蓋Web、桌面和移動三大GUI環(huán)境,為模型訓(xùn)練提供豐富、多樣的訓(xùn)練數(shù)據(jù),增強(qiáng)模型對不同指令和元素的識別能力。
- 上下文感知數(shù)據(jù)擴(kuò)展:利用公開的代理軌跡數(shù)據(jù)模擬具有上下文的定位任務(wù),構(gòu)建文本動作歷史和文本-圖像交錯歷史兩種上下文設(shè)置,基于數(shù)據(jù)合成流程為軌跡數(shù)據(jù)中的所有定位步驟生成詳細(xì)的逐步指令,使模型在動態(tài)環(huán)境中更好地理解并執(zhí)行任務(wù)。
- 超分辨率支持:支持高達(dá)3920×2940的圖像分辨率,將圖像分割成小塊進(jìn)行處理,確保圖像細(xì)節(jié)和準(zhǔn)確性。
Aria-UI的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://ariaui.github.io/
- GitHub倉庫:https://github.com/AriaUI/Aria-UI
- HuggingFace模型庫:https://huggingface.co/Aria-UI
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.16256
Aria-UI的應(yīng)用場景
- 自動化測試:用于Web應(yīng)用的測試,自動點(diǎn)擊網(wǎng)頁按鈕、輸入信息,驗(yàn)證功能是否正常。
- 用戶交互輔助:通過語音指令控制家居設(shè)備,例如“開燈”來自動點(diǎn)擊開關(guān)按鈕。
- 智能客服:電商平臺客服可以快速定位產(chǎn)品詳情,迅速回答用戶咨詢問題。
- 教育行業(yè):自動操作代碼編輯器,演示編程過程和結(jié)果,提升學(xué)習(xí)效率。
- 自動化辦公:自動操作財(cái)務(wù)軟件,生成報(bào)表,提高工作效率。
常見問題
- Aria-UI適用于哪些平臺? Aria-UI可廣泛應(yīng)用于Web、桌面及移動設(shè)備的圖形用戶界面。
- 如何獲取Aria-UI? 用戶可以通過訪問項(xiàng)目官網(wǎng)或GitHub倉庫獲取相關(guān)資源和文檔。
- Aria-UI是否支持其他語言的指令? 是的,Aria-UI能夠處理多樣化的語言指令,適應(yīng)不同用戶的需求。
- 如何提高Aria-UI的性能? 通過提供更多樣化的訓(xùn)練數(shù)據(jù)和上下文信息,可以有效提升模型的識別和定位能力。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...