爆打多模態(tài)王者 GPT-4V、Gemini Pro!這個小小端側(cè)模型殺瘋了!
AIGC動態(tài)歡迎閱讀
原標(biāo)題:爆打多模態(tài)王者 GPT-4V、Gemini Pro!這個小小端側(cè)模型殺瘋了!
關(guān)鍵字:模型,報告,能力,高效,圖像
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):6676字
內(nèi)容摘要:
夕小瑤科技說 分享多模態(tài)王者 GPT-4V、Gemini Pro ,竟然被一個端側(cè)模型打爆了!而且這個模型還憑強勁實力拿下了全球最強端側(cè)多模態(tài)模型王座!
有圖有。比如輸入一張充滿繁密字跡的《三體》主體的建筑圖, GPT-4V 壓根答不上來。
但這個端側(cè)模型卻能一眼道破,甚至還能推理出該建筑對《三體》的意義:
或許你會覺得要達(dá)到力壓 GPT-4V 的效果,這個模型肯定得上千億參數(shù)起步;
但如果我告訴你這個端側(cè)模型只有8B參數(shù),你敢信嗎?筆者我最開始也是不信的,畢竟 GPT-4V 據(jù)說可是有幾千上萬億參數(shù)。
然而事實擺在眼前,我卻不得不信。
那么這背后究竟是什么模型?又是如何做到的呢?
不賣關(guān)子了,這背后就是由國內(nèi)大模型研發(fā)頭部公司面壁智能最新打造的最強端側(cè)多模態(tài)模型——MiniCPM-Llama3-V 2.5。
據(jù)說內(nèi)部叫做小鋼炮 520 特別版,是送給開源社區(qū)的一份情人節(jié)禮物 ??
嘖嘖嘖,這浪漫的簡直不像個科技公司。MiniCPM-Llama3-V 2.5的厲害之處在于,它不僅是最強端側(cè)多模態(tài)模型,而且支持30多種語言,此外,它還同時具備:
最強端側(cè)多模態(tài)綜合性能:超越多
原文鏈接:爆打多模態(tài)王者 GPT-4V、Gemini Pro!這個小小端側(cè)模型殺瘋了!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189