Ferret-UI 2是一款由蘋果公司推出的多模態(tài)大型語(yǔ)言模型,旨在提升移動(dòng)用戶界面的理解與交互能力。該產(chǎn)品能夠識(shí)別和解析各種移動(dòng)設(shè)備上的用戶界面元素,執(zhí)行復(fù)雜的用戶指令,并實(shí)時(shí)監(jiān)測(cè)用戶在屏幕上的操作,隨時(shí)準(zhǔn)備提供幫助并完成任務(wù)。相較于前一版本,F(xiàn)erret-UI 2在高分辨率圖像編碼和數(shù)據(jù)訓(xùn)練方法上進(jìn)行了顯著改進(jìn),增強(qiáng)了UI元素的識(shí)別精度和交互能力,使用戶與智能設(shè)備的互動(dòng)更加自然和高效。
Ferret-UI 2是什么
Ferret-UI 2是一款由蘋果公司開發(fā)的多模態(tài)大型語(yǔ)言模型,專注于理解和交互移動(dòng)用戶界面。它能夠解析各種移動(dòng)設(shè)備的屏幕UI元素,執(zhí)行復(fù)雜的用戶指令,并實(shí)時(shí)觀察用戶的操作。Ferret-UI 2在早期版本的基礎(chǔ)上實(shí)現(xiàn)了重大的技術(shù)革新,通過(guò)高分辨率圖像編碼及先進(jìn)的數(shù)據(jù)訓(xùn)練方法,顯著提升了UI元素的識(shí)別精度和交互能力,使得用戶能夠以更自然的方式與智能設(shè)備進(jìn)行交互。

Ferret-UI 2的主要功能
- 多平臺(tái)兼容性:Ferret-UI 2可在包括iPhone、Android、iPad、網(wǎng)頁(yè)和Apple TV等多種平臺(tái)上處理用戶界面。
- 高分辨率圖像識(shí)別:利用自適應(yīng)縮放技術(shù),F(xiàn)erret-UI 2在保持原始UI圖像分辨率的同時(shí),提供更精確的視覺元素識(shí)別。
- 復(fù)雜任務(wù)的訓(xùn)練數(shù)據(jù)生成:依托于GPT-4o和set-of-mark視覺提示,F(xiàn)erret-UI 2生成用于復(fù)雜任務(wù)的訓(xùn)練數(shù)據(jù),增強(qiáng)模型對(duì)UI元素空間關(guān)系的理解。
- 以用戶為中心的交互:Ferret-UI 2能夠理解并執(zhí)行用戶導(dǎo)向的交互任務(wù),如確認(rèn)提交、點(diǎn)擊按鈕等,超越了簡(jiǎn)單的機(jī)械點(diǎn)擊。
- 跨平臺(tái)適應(yīng)能力:Ferret-UI 2展現(xiàn)出強(qiáng)大的跨平臺(tái)遷移能力,能在不同平臺(tái)之間靈活適應(yīng)。
Ferret-UI 2的技術(shù)原理
- 多模態(tài)大型語(yǔ)言模型(MLLM):結(jié)合視覺感知與語(yǔ)言處理的強(qiáng)大能力,理解并生成復(fù)雜的UI交互。
- 自適應(yīng)N網(wǎng)格機(jī)制:通過(guò)算法確定最優(yōu)網(wǎng)格大小,以最小的分辨率失真編碼UI截圖的各個(gè)部分。
- 動(dòng)態(tài)高分辨率圖像編碼:利用CLIP圖像編碼器提取全局和局部特征,并將這些特征傳遞至大型語(yǔ)言模型(LLM)。
- 視覺采樣器:依據(jù)用戶指令識(shí)別并選擇相關(guān)UI區(qū)域,輸出對(duì)UI元素的感知或交互描述。
- set-of-mark(SoM)視覺提示:在生成訓(xùn)練數(shù)據(jù)時(shí),利用SoM提示增強(qiáng)模型對(duì)UI元素空間關(guān)系的理解,尤其在多輪感知與交互問答任務(wù)中。
- 端到端訓(xùn)練:模型通過(guò)端到端的訓(xùn)練過(guò)程學(xué)習(xí)原始數(shù)據(jù)注釋,生成高質(zhì)量的訓(xùn)練數(shù)據(jù)并優(yōu)化模型性能。
Ferret-UI 2的項(xiàng)目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2410.18967
Ferret-UI 2的應(yīng)用場(chǎng)景
- 智能手機(jī)和平板電腦:Ferret-UI 2能夠理解并執(zhí)行用戶在iOS和Android設(shè)備上的各種指令,如導(dǎo)航應(yīng)用、發(fā)送消息、設(shè)置提醒等。
- 網(wǎng)絡(luò)瀏覽:在網(wǎng)頁(yè)瀏覽中,幫助用戶更有效地與網(wǎng)頁(yè)元素進(jìn)行交互,例如點(diǎn)擊按鈕、填寫表單、導(dǎo)航鏈接等。
- 智能電視:對(duì)于Apple TV等智能電視平臺(tái),提供語(yǔ)音控制及其他交互方式,提升用戶體驗(yàn)。
- 多任務(wù)環(huán)境:在需要同時(shí)處理多個(gè)應(yīng)用程序或窗口的場(chǎng)景中,幫助用戶更加高效地管理和切換不同的任務(wù)。
- 輔助技術(shù):可集成于輔助技術(shù)中,幫助殘障人士通過(guò)語(yǔ)音命令或其他輸入方式與設(shè)備進(jìn)行交互。
常見問題
- Ferret-UI 2是否支持所有移動(dòng)設(shè)備? 是的,F(xiàn)erret-UI 2支持多種移動(dòng)設(shè)備,包括iPhone、Android及平板電腦等。
- 如何確保Ferret-UI 2的隱私安全? 蘋果公司致力于用戶隱私,F(xiàn)erret-UI 2在設(shè)計(jì)時(shí)充分考慮了數(shù)據(jù)安全和用戶隱私保護(hù)。
- Ferret-UI 2的學(xué)習(xí)能力如何? 通過(guò)端到端的訓(xùn)練,F(xiàn)erret-UI 2持續(xù)學(xué)習(xí)并優(yōu)化其對(duì)UI交互的理解和執(zhí)行能力。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)