手機(jī)上能跑的「GPT-4V」來啦!多圖、視頻理解首次上端!面壁小鋼炮開源史上最強(qiáng)端側(cè)多模態(tài)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:手機(jī)上能跑的「GPT-4V」來啦!多圖、視頻理解首次上端!面壁小鋼炮開源史上最強(qiáng)端側(cè)多模態(tài)
關(guān)鍵字:模型,能力,小鋼炮,視頻,高效
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】面壁小鋼炮MiniCPM-V 2.6重磅出擊,再次刷新端側(cè)多模態(tài)天花板!憑借8B參數(shù),已經(jīng)取得單圖、多圖、視頻理解三項SOTA ,性能全面對標(biāo)GPT-4V。再次刷新端側(cè)多模態(tài)天花板,面壁「小鋼炮」 MiniCPM-V 2.6 模型重磅上新!
僅8B參數(shù),取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績,一舉將端側(cè)AI多模態(tài)能力拉升至全面對標(biāo)超越 GPT-4V 水平。
更有多項功能首次上「端」:小鋼炮一口氣將實時視頻理解、多圖聯(lián)合理解(還包括多圖OCR、多圖ICL等)能力首次搬上端側(cè)多模態(tài)模型,更接近充斥著復(fù)雜、模糊、連續(xù)實時視覺信息的多模態(tài)真實世界,更能充分發(fā)揮端側(cè) AI 傳感器富集、貼近用戶的優(yōu)勢。亮點眾多,延續(xù)了「小鋼炮」系列一貫的以小博大與高效低成本,劃重點如下:
「三合一」最強(qiáng)端側(cè)多模態(tài):首次在端側(cè)實現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越 GPT-4V,單圖理解越級比肩多模態(tài)王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini 。
多項功能首次上端:實時視頻理解、多圖聯(lián)合理解、多圖 ICL 視覺類比學(xué)習(xí)
原文鏈接:手機(jī)上能跑的「GPT-4V」來啦!多圖、視頻理解首次上端!面壁小鋼炮開源史上最強(qiáng)端側(cè)多模態(tài)
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: