<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Aria-UI

        AI工具8個月前發(fā)布 AI工具集
        657 0 0

        Aria-UI – 港大聯(lián)合 Rhymes AI 開源面向 GUI 智能交互的多模態(tài)模型

        Aria-UI是什么

        Aria-UI是由香港大學(xué)與Rhymes AI聯(lián)合開發(fā)的一個大型多模態(tài)模型,旨在處理圖形用戶界面(GUI)中的定位任務(wù)。該模型采用純視覺的方法,不依賴于HTML或AXTree等輔助輸入,通過大規(guī)模的多樣化數(shù)據(jù)合成流程,從Common Crawl及公開數(shù)據(jù)中生成高質(zhì)量的元素描述和指令樣本,能夠靈活適應(yīng)不同環(huán)境下的指令表達(dá)。Aria-UI創(chuàng)新性地整合了動態(tài)動作歷史信息,利用文本或文本-圖像交錯格式增強(qiáng)模型在多步任務(wù)場景中的定位能力。經(jīng)過廣泛的基準(zhǔn)測試,包括離線和在線代理任務(wù),Aria-UI展現(xiàn)出卓越的性能,顯現(xiàn)出強(qiáng)大的零樣本泛化能力和跨平臺適應(yīng)性,是解決通用GUI定位任務(wù)的理想選擇。

        Aria-UI

        Aria-UI的主要功能

        • GUI元素定位:能夠?qū)⒄Z言指令精確映射到GUI中的目標(biāo)元素,從而實(shí)現(xiàn)元素的準(zhǔn)確定位,為后續(xù)交互操作奠定基礎(chǔ)。
        • 多模態(tài)輸入處理:支持處理包括GUI圖像、文本指令及動作歷史等多種輸入模態(tài),充分理解和利用多模態(tài)數(shù)據(jù)中的豐富信息。
        • 多樣化指令適應(yīng):通過大規(guī)模、多樣化的數(shù)據(jù)合成流程生成的指令樣本,能夠有效適應(yīng)不同環(huán)境下的各種指令表達(dá)方式。
        • 動態(tài)上下文理解:整合動態(tài)動作歷史信息,采用文本或文本-圖像交錯格式,在多步任務(wù)場景中理解當(dāng)前的動態(tài)上下文,為準(zhǔn)確的元素定位提供重要參考。
        • 高分辨率圖像處理:支持高達(dá)3920×2940的圖像分辨率,能夠?qū)D像分割成小塊進(jìn)行處理,顯著擴(kuò)展可處理的圖像尺寸范圍。

        Aria-UI的技術(shù)原理

        • 純視覺方法:該模型通過純視覺方法,直接從GUI圖像中提取視覺特征,利用視覺信息進(jìn)行目標(biāo)元素的理解與定位。
        • 多模態(tài)MoE模型:基于Aria多模態(tài)MoE(Mixture of Experts)模型構(gòu)建,具有3.9B的激活參數(shù),特別擅長處理多模態(tài)數(shù)據(jù)。
        • 數(shù)據(jù)合成與訓(xùn)練:采用兩階段的數(shù)據(jù)合成流程,從Common Crawl及公開數(shù)據(jù)中生成高質(zhì)量的元素描述與多樣化指令樣本,覆蓋Web、桌面和移動三大GUI環(huán)境,為模型訓(xùn)練提供豐富、多樣的訓(xùn)練數(shù)據(jù),增強(qiáng)模型對不同指令和元素的識別能力。
        • 上下文感知數(shù)據(jù)擴(kuò)展:利用公開的代理軌跡數(shù)據(jù)模擬具有上下文的定位任務(wù),構(gòu)建文本動作歷史和文本-圖像交錯歷史兩種上下文設(shè)置,基于數(shù)據(jù)合成流程為軌跡數(shù)據(jù)中的所有定位步驟生成詳細(xì)的逐步指令,使模型在動態(tài)環(huán)境中更好地理解并執(zhí)行任務(wù)。
        • 超分辨率支持:支持高達(dá)3920×2940的圖像分辨率,將圖像分割成小塊進(jìn)行處理,確保圖像細(xì)節(jié)和準(zhǔn)確性。

        Aria-UI的項(xiàng)目地址

        Aria-UI的應(yīng)用場景

        • 自動化測試:用于Web應(yīng)用的測試,自動點(diǎn)擊網(wǎng)頁按鈕、輸入信息,驗(yàn)證功能是否正常。
        • 用戶交互輔助:通過語音指令控制家居設(shè)備,例如“開燈”來自動點(diǎn)擊開關(guān)按鈕。
        • 智能客服:電商平臺客服可以快速定位產(chǎn)品詳情,迅速回答用戶咨詢問題。
        • 教育行業(yè):自動操作代碼編輯器,演示編程過程和結(jié)果,提升學(xué)習(xí)效率。
        • 自動化辦公:自動操作財(cái)務(wù)軟件,生成報(bào)表,提高工作效率。

        常見問題

        • Aria-UI適用于哪些平臺? Aria-UI可廣泛應(yīng)用于Web、桌面及移動設(shè)備的圖形用戶界面。
        • 如何獲取Aria-UI? 用戶可以通過訪問項(xiàng)目官網(wǎng)或GitHub倉庫獲取相關(guān)資源和文檔。
        • Aria-UI是否支持其他語言的指令? 是的,Aria-UI能夠處理多樣化的語言指令,適應(yīng)不同用戶的需求。
        • 如何提高Aria-UI的性能? 通過提供更多樣化的訓(xùn)練數(shù)據(jù)和上下文信息,可以有效提升模型的識別和定位能力。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲中文字幕久在线| 成年性羞羞视频免费观看无限| 亚洲成AV人网址| 色老头永久免费网站| 亚洲成人在线网站| 亚洲日本一线产区和二线产区对比| 特级aa**毛片免费观看| 久久久久国产精品免费看| 国产免费人成在线视频| 久久久亚洲精华液精华液精华液 | 国产成人无码免费网站| 亚洲精品一级无码鲁丝片 | 亚洲国产成a人v在线观看| 久久笫一福利免费导航| 超pen个人视频国产免费观看| 亚洲综合激情九月婷婷 | 免费A级毛片无码A∨| 亚洲另类精品xxxx人妖| 韩国免费a级作爱片无码| 亚洲国产精品无码一线岛国| 无套内射无矿码免费看黄| 成年黄网站色大免费全看| 国产成人A人亚洲精品无码| 91av免费观看| 亚洲AV第一成肉网| 亚洲男人的天堂www| 国产人成免费视频网站| 女bbbbxxxx另类亚洲| 国产亚洲美女精品久久久2020| 99精品一区二区免费视频| 亚洲偷偷自拍高清| 亚洲高清无码综合性爱视频| 久久久久久成人毛片免费看| 2019亚洲午夜无码天堂| 精品亚洲一区二区三区在线观看| 一区二区免费国产在线观看| 国产精品视频免费| 日韩毛片一区视频免费| 久久夜色精品国产亚洲AV动态图| 97热久久免费频精品99| 免费国产黄网站在线看|