讓大模型理解手機(jī)屏幕,蘋果多模態(tài)Ferret-UI用自然語(yǔ)言操控手機(jī)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:讓大模型理解手機(jī)屏幕,蘋果多模態(tài)Ferret-UI用自然語(yǔ)言操控手機(jī)
關(guān)鍵字:任務(wù),屏幕,解讀,模型,圖像
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6937字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍此次,蘋果提出的多模態(tài)大語(yǔ)言模型(MLLM) Ferret-UI ,專門針對(duì)移動(dòng)用戶界面(UI)屏幕的理解進(jìn)行了優(yōu)化,其具備引用、定位和推理能力。移動(dòng)應(yīng)用已經(jīng)成為我們?nèi)粘I畹囊淮笾匾M成部分。使用移動(dòng)應(yīng)用時(shí),我們通常是用眼睛看,用手執(zhí)行對(duì)應(yīng)操作。如果能將這個(gè)感知和交互過(guò)程自動(dòng)化,用戶也許能獲得更加輕松的使用體驗(yàn)。此外,這還能助益手機(jī)輔助功能、多步 UI 導(dǎo)航、應(yīng)用測(cè)試、可用性研究等。
為了在用戶界面內(nèi)實(shí)現(xiàn)感知和交互的無(wú)縫自動(dòng)化,就需要一個(gè)復(fù)雜的系統(tǒng),其需要具備一系列關(guān)鍵能力。
這樣一個(gè)系統(tǒng)不僅要能完全理解屏幕內(nèi)容,還要能關(guān)注屏幕內(nèi)的特定 UI 元素。以視覺(jué)理解為基礎(chǔ),它應(yīng)當(dāng)有能力進(jìn)一步將自然語(yǔ)言指令映射到給定 UI 內(nèi)對(duì)應(yīng)的動(dòng)作、執(zhí)行高級(jí)推理并提供其交互的屏幕的詳細(xì)信息。
為了滿足這些要求,必須開(kāi)發(fā)出能在 UI 屏幕中確定相關(guān)元素位置并加以引述的視覺(jué) – 語(yǔ)言模型。其中,確定相關(guān)元素位置這一任務(wù)通常被稱為 grounding,這里我們將其譯為「定基」,取確定參考基準(zhǔn)之意;而引述(referring)是指有能力利用屏幕中特定區(qū)域的圖像信息。
多模態(tài)大型語(yǔ)言模型(
原文鏈接:讓大模型理解手機(jī)屏幕,蘋果多模態(tài)Ferret-UI用自然語(yǔ)言操控手機(jī)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)