蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機(jī) UI 任務(wù)超越 GPT-4V

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布 AI科技評(píng)論

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機(jī) UI 任務(wù)超越 GPT-4V
關(guān)鍵字：模型,任務(wù),圖像,文本,屏幕
文章來源：AI科技評(píng)論
內(nèi)容字?jǐn)?shù)：5711字

內(nèi)容摘要：

手機(jī)廠商自研的端側(cè)模型功能，會(huì)超越純正的大模型團(tuán)隊(duì)嗎？編譯 | 賴文昕
編輯 | 陳彩嫻
大模型的誕生，讓科技巨頭與創(chuàng)業(yè)公司們?cè)谛乱惠喌母?jìng)賽中再次鳴槍出發(fā)，OpenAI、Anthropic、Mistral等創(chuàng)業(yè)之星的升起更是證明了在新技術(shù)的影響下，大廠并不存在絕對(duì)的優(yōu)勢(shì)。
不久前，蘋果叫停了啟動(dòng)十多年且投入數(shù)十億美元的自動(dòng)駕駛電動(dòng)汽車項(xiàng)目，美國(guó)總部裁員了600多人，另有近2000名員工轉(zhuǎn)到AI部門。
然而，在目前市場(chǎng)上的主流智能手機(jī)品牌中，蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長(zhǎng)期處在領(lǐng)頭羊地位的蘋果，似乎在大模型這一局中罕見地落后了。
4月8日，蘋果發(fā)表了一個(gè)名為“Ferret-UI”的新工作，這是一個(gè)能“看懂”手機(jī)屏幕上并能執(zhí)行任務(wù)的多模態(tài)模型，專為增強(qiáng)對(duì)移動(dòng)端 UI 屏幕的理解而定制，配備了引用（referring）、定位（grounding）和推理（reasoning）功能。
論文鏈接：https://arxiv.org/pdf/2404.05719.pdf
半年前，蘋果和哥倫比亞大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布的多模態(tài)大模型“Ferret”就已具有較高的圖文關(guān)聯(lián)能力，而“Ferre

原文鏈接：蘋果發(fā)布多模態(tài)模型 Ferret-UI，部分手機(jī) UI 任務(wù)超越 GPT-4V