
AIGC動態歡迎閱讀
原標題:讓大模型理解手機屏幕,蘋果多模態Ferret-UI用自然語言操控手機
關鍵字:任務,屏幕,解讀,模型,圖像
文章來源:機器之心
內容字數:6937字
內容摘要:
機器之心報道
編輯:陳萍此次,蘋果提出的多模態大語言模型(MLLM) Ferret-UI ,專門針對移動用戶界面(UI)屏幕的理解進行了優化,其具備引用、定位和推理能力。移動應用已經成為我們日常生活的一大重要組成部分。使用移動應用時,我們通常是用眼睛看,用手執行對應操作。如果能將這個感知和交互過程自動化,用戶也許能獲得更加輕松的使用體驗。此外,這還能助益手機輔助功能、多步 UI 導航、應用測試、可用性研究等。
為了在用戶界面內實現感知和交互的無縫自動化,就需要一個復雜的系統,其需要具備一系列關鍵能力。
這樣一個系統不僅要能完全理解屏幕內容,還要能關注屏幕內的特定 UI 元素。以視覺理解為基礎,它應當有能力進一步將自然語言指令映射到給定 UI 內對應的動作、執行高級推理并提供其交互的屏幕的詳細信息。
為了滿足這些要求,必須開發出能在 UI 屏幕中確定相關元素位置并加以引述的視覺 – 語言模型。其中,確定相關元素位置這一任務通常被稱為 grounding,這里我們將其譯為「定基」,取確定參考基準之意;而引述(referring)是指有能力利用屏幕中特定區域的圖像信息。
多模態大型語言模型(
原文鏈接:讓大模型理解手機屏幕,蘋果多模態Ferret-UI用自然語言操控手機
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號