AIGC動態歡迎閱讀
原標題:超越GPT-4V,蘋果多模態大模型上新!
關鍵字:任務,模型,數據,屏幕,性能
文章來源:新智元
內容字數:6105字
內容摘要:
新智元報道編輯:flynne
【新智元導讀】蘋果開發的多模態模型Ferret-UI增強了對屏幕的理解和交互,在引用、基礎和推理方面表現出了卓越的性能,這些增強功能的出現預示著巨大的進步。一句話Siri就能幫忙打開美團外賣下訂單的日子看來不遠啦!
4月8日,蘋果發布了其最新的多模態大語言模型(MLLM )——Ferret-UI,能夠更有效地理解和與屏幕信息進行交互,在所有基本UI任務上都超過了GPT-4V!
論文地址:https://arxiv.org/pdf/2404.05719.pdf
雖然蘋果前段時間經歷了泰坦項目的沉沒,但看目前的形式,這是又要開卷的節奏呀~
不少人十分期待,這項技術如果在蘋果的Siri上,Siri豈不是要變得聰明絕頂了!
眾所周知,通用域多模態大型語言模型(MLLM )在理解和有效交互的能力方面往往不足。
而Ferret-UI被稱之為是一種新的MLLM,專為理解移動UI屏幕而量身定制,具備指向、定位和推理等多種能力。
Ferret-UI能夠通過靈活的輸入格式(點、框、涂鴉)和基礎任務(例如:查找小部件、查找圖標、查找文本、小部件列表)在移動用戶界面屏幕上執行引
原文鏈接:超越GPT-4V,蘋果多模態大模型上新!
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...