蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V
AIGC動態(tài)歡迎閱讀
原標(biāo)題:蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V
關(guān)鍵字:模型,任務(wù),圖像,文本,屏幕
文章來源:AI科技評論
內(nèi)容字?jǐn)?shù):5711字
內(nèi)容摘要:
手機(jī)廠商自研的端側(cè)模型功能,會超越純正的大模型團(tuán)隊(duì)嗎?編譯 | 賴文昕
編輯 | 陳彩嫻
大模型的誕生,讓科技巨頭與創(chuàng)業(yè)公司們在新一輪的競賽中再次鳴槍出發(fā),OpenAI、Anthropic、Mistral等創(chuàng)業(yè)之星的升起更是證明了在新技術(shù)的影響下,大廠并不存在絕對的優(yōu)勢。
不久前,蘋果叫停了啟動十多年且投入數(shù)十億美元的自動駕駛電動汽車項(xiàng)目,美國總部裁員了600多人,另有近2000名員工轉(zhuǎn)到AI部門。
然而,在目前市場上的主流智能手機(jī)品牌中,蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長期處在領(lǐng)頭羊地位的蘋果,似乎在大模型這一局中罕見地落后了。
4月8日,蘋果發(fā)表了一個(gè)名為“Ferret-UI”的新工作,這是一個(gè)能“看懂”手機(jī)屏幕上并能執(zhí)行任務(wù)的多模態(tài)模型,專為增強(qiáng)對移動端 UI 屏幕的理解而定制,配備了引用(referring)、定位(grounding)和推理(reasoning)功能。
論文鏈接:https://arxiv.org/pdf/2404.05719.pdf
半年前,蘋果和哥倫比亞大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布的多模態(tài)大模型“Ferret”就已具有較高的圖文關(guān)聯(lián)能力,而“Ferre
原文鏈接:蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V
聯(lián)系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。