讓大模型理解手機屏幕，蘋果多模態Ferret-UI用自然語言操控手機

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：讓大模型理解手機屏幕，蘋果多模態Ferret-UI用自然語言操控手機
關鍵字：任務,屏幕,解讀,模型,圖像
文章來源：機器之心
內容字數：6937字

內容摘要：

機器之心報道
編輯：陳萍此次，蘋果提出的多模態大語言模型（MLLM） Ferret-UI ，專門針對移動用戶界面（UI）屏幕的理解進行了優化，其具備引用、定位和推理能力。移動應用已經成為我們日常生活的一大重要組成部分。使用移動應用時，我們通常是用眼睛看，用手執行對應操作。如果能將這個感知和交互過程自動化，用戶也許能獲得更加輕松的使用體驗。此外，這還能助益手機輔助功能、多步 UI 導航、應用測試、可用性研究等。
為了在用戶界面內實現感知和交互的無縫自動化，就需要一個復雜的系統，其需要具備一系列關鍵能力。
這樣一個系統不僅要能完全理解屏幕內容，還要能關注屏幕內的特定 UI 元素。以視覺理解為基礎，它應當有能力進一步將自然語言指令映射到給定 UI 內對應的動作、執行高級推理并提供其交互的屏幕的詳細信息。
為了滿足這些要求，必須開發出能在 UI 屏幕中確定相關元素位置并加以引述的視覺 – 語言模型。其中，確定相關元素位置這一任務通常被稱為 grounding，這里我們將其譯為「定基」，取確定參考基準之意；而引述（referring）是指有能力利用屏幕中特定區域的圖像信息。
多模態大型語言模型（

原文鏈接：讓大模型理解手機屏幕，蘋果多模態Ferret-UI用自然語言操控手機

聯系作者

文章來源：機器之心
作者微信：almosthuman2014
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 任務 # 圖像 # 屏幕 # 模型 # 解讀

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

讓大模型理解手機屏幕，蘋果多模態Ferret-UI用自然語言操控手機

AIGC動態歡迎閱讀

內容摘要：

聯系作者

數據更多更好還是質量更高更好？這項研究能幫你做出選擇

迪士尼機器人再秀神操作，用火箭上天，還能精準著陸！

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

讓大模型理解手機屏幕，蘋果多模態Ferret-UI用自然語言操控手機

AIGC動態歡迎閱讀

內容摘要：

聯系作者

數據更多更好還是質量更高更好？這項研究能幫你做出選擇

迪士尼機器人再秀神操作，用火箭上天，還能精準著陸！

相關文章

暫無評論

ChatGPT

玩虛擬模特？

讓大模型理解手機屏幕，蘋果多模態Ferret-UI用自然語言操控手機

數據更多更好還是質量更高更好？這項研究能幫你做出選擇

迪士尼機器人再秀神操作，用火箭上天，還能精準著陸！

玩虛擬模特？