蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V
關(guān)鍵字:模型,任務(wù),圖像,文本,屏幕
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):5711字
內(nèi)容摘要:
手機(jī)廠商自研的端側(cè)模型功能,會(huì)超越純正的大模型團(tuán)隊(duì)嗎?編譯 | 賴文昕
編輯 | 陳彩嫻
大模型的誕生,讓科技巨頭與創(chuàng)業(yè)公司們?cè)谛乱惠喌母?jìng)賽中再次鳴槍出發(fā),OpenAI、Anthropic、Mistral等創(chuàng)業(yè)之星的升起更是證明了在新技術(shù)的影響下,大廠并不存在絕對(duì)的優(yōu)勢(shì)。
不久前,蘋果叫停了啟動(dòng)十多年且投入數(shù)十億美元的自動(dòng)駕駛電動(dòng)汽車項(xiàng)目,美國(guó)總部裁員了600多人,另有近2000名員工轉(zhuǎn)到AI部門。
然而,在目前市場(chǎng)上的主流智能手機(jī)品牌中,蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長(zhǎng)期處在領(lǐng)頭羊地位的蘋果,似乎在大模型這一局中罕見(jiàn)地落后了。
4月8日,蘋果發(fā)表了一個(gè)名為“Ferret-UI”的新工作,這是一個(gè)能“看懂”手機(jī)屏幕上并能執(zhí)行任務(wù)的多模態(tài)模型,專為增強(qiáng)對(duì)移動(dòng)端 UI 屏幕的理解而定制,配備了引用(referring)、定位(grounding)和推理(reasoning)功能。
論文鏈接:https://arxiv.org/pdf/2404.05719.pdf
半年前,蘋果和哥倫比亞大學(xué)研究團(tuán)隊(duì)聯(lián)合發(fā)布的多模態(tài)大模型“Ferret”就已具有較高的圖文關(guān)聯(lián)能力,而“Ferre
原文鏈接:蘋果發(fā)布多模態(tài)模型 Ferret-UI,部分手機(jī) UI 任務(wù)超越 GPT-4V
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:aitechtalk
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。