蘋果的 AI 新模型曝光,能夠「看懂」你的 iPhone 屏幕 | Hunt Good 周報(bào)

AIGC動態(tài)歡迎閱讀
原標(biāo)題:蘋果的 AI 新模型曝光,能夠「看懂」你的 iPhone 屏幕 | Hunt Good 周報(bào)
關(guān)鍵字:報(bào)告,模型,解讀,華為,知識產(chǎn)權(quán)
文章來源:愛范兒
內(nèi)容字?jǐn)?shù):11697字
內(nèi)容摘要:
歡迎收看最新一期的Hunt Good周報(bào)!
在本期內(nèi)容你會看到:
7 條新鮮資訊4 個有用工具1 個有趣案例3 個鮮明觀點(diǎn)
Hunt for News|先進(jìn)頭條
? 蘋果多模態(tài)大模型 Ferret-UI 上新
本周,康奈爾大學(xué)發(fā)布了一篇名為「Ferret-UI:基于多模態(tài)大語言模型的移動 UI 理解」的論文。
Ferret-UI 被描述為一種新的 MLLM,專為理解移動 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特點(diǎn)是有一個放大系統(tǒng),可以將圖像放大到「任何分辨率」,使圖標(biāo)和文本更易于閱讀。
為了進(jìn)行處理和訓(xùn)練,F(xiàn)erret 還將屏幕分成兩個較小的部分,將屏幕切成兩半。相較于其他大語言模型,傳統(tǒng)的更傾向于掃描較低分辨率的全局圖像,這降低了充分確定圖標(biāo)外觀的能力。
雖然不知道最終是否會被整合到 Siri 中,但 Ferret-UI 提供了對 iPhone 進(jìn)行高級控制的可能性。通過了解用戶界面元素,Siri 可以通過在應(yīng)用程序中自行選擇圖形元素,為用戶在應(yīng)用程序中執(zhí)行操作。
?https://appleinsider.com/articles/24/04/09/apple
原文鏈接:蘋果的 AI 新模型曝光,能夠「看懂」你的 iPhone 屏幕 | Hunt Good 周報(bào)
聯(lián)系作者
文章來源:愛范兒
作者微信:ifanr
作者簡介:關(guān)注明日產(chǎn)品的數(shù)字潮牌

粵公網(wǎng)安備 44011502001135號