蘋果首次披露多模態(tài)大模型!AI 大招什么時(shí)候上 iPhone
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘋果首次披露多模態(tài)大模型!AI 大招什么時(shí)候上 iPhone
關(guān)鍵字:模型,數(shù)據(jù),圖像,研究人員,解讀
文章來源:愛范兒
內(nèi)容字?jǐn)?shù):8283字
內(nèi)容摘要:
一直在大模型浪潮有點(diǎn)克制的蘋果,終于不再低調(diào)了。在今年的蘋果股東大會(huì)上,庫(kù)克罕見地談及了生成式 AI。
蘋果 2024 年將在生成式 AI 領(lǐng)域「開辟新天地」。
今天,蘋果首次揭曉了在多模態(tài)大型語言模型(LLM)研究領(lǐng)域的最新突破。
這是一篇題為《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的學(xué)術(shù)論文,里面詳細(xì)介紹了具有高達(dá) 30B 參數(shù)規(guī)模的系列多模態(tài) LLM。
不只是數(shù)蘋果!超大杯自帶火眼金睛
直入主題,先來看看「超大杯」 MM1-30B-Chat 的能力。
MM1-30B-Chat 不僅準(zhǔn)確無誤地?cái)?shù)出圖片中蘋果、橙子的數(shù)量,而且面對(duì)一連串?dāng)?shù)字的識(shí)別,也能輕松應(yīng)對(duì)。
難度也進(jìn)一步升級(jí),研究人員設(shè)置了個(gè)陷阱問題,詢問 MM1-30B-Chat 能看到圖片中的紅球嗎?
并未中招的它能夠明確地回應(yīng)道:「圖片中并無紅球,我所見到的是一只貓正坐在沙發(fā)的枕頭上,除此之外,別無他物。」
我們時(shí)常在朋友圈上看到飛機(jī)上隨手一拍的風(fēng)景圖,那 MM1-30B-Chat 會(huì)怎么解讀這些風(fēng)景圖呢?
目睹這幅圖像,人們會(huì)
原文鏈接:蘋果首次披露多模態(tài)大模型!AI 大招什么時(shí)候上 iPhone
聯(lián)系作者
文章來源:愛范兒
作者微信:ifanr
作者簡(jiǎn)介:關(guān)注明日產(chǎn)品的數(shù)字潮牌