手機上能跑的「GPT-4V」來啦！多圖、視頻理解首次上端！面壁小鋼炮開源史上最強端側多模態

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：手機上能跑的「GPT-4V」來啦！多圖、視頻理解首次上端！面壁小鋼炮開源史上最強端側多模態
關鍵字：模型,能力,小鋼炮,視頻,高效
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】面壁小鋼炮MiniCPM-V 2.6重磅出擊，再次刷新端側多模態天花板！憑借8B參數，已經取得單圖、多圖、視頻理解三項SOTA ，性能全面對標GPT-4V。再次刷新端側多模態天花板，面壁「小鋼炮」 MiniCPM-V 2.6 模型重磅上新！
僅8B參數，取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績，一舉將端側AI多模態能力拉升至全面對標超越 GPT-4V 水平。
更有多項功能首次上「端」：小鋼炮一口氣將實時視頻理解、多圖聯合理解（還包括多圖OCR、多圖ICL等）能力首次搬上端側多模態模型，更接近充斥著復雜、模糊、連續實時視覺信息的多模態真實世界，更能充分發揮端側 AI 傳感器富集、貼近用戶的優勢。亮點眾多，延續了「小鋼炮」系列一貫的以小博大與高效低成本，劃重點如下：
「三合一」最強端側多模態：首次在端側實現單圖、多圖、視頻理解等多模態核心能力全面超越 GPT-4V，單圖理解越級比肩多模態王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini 。
多項功能首次上端：實時視頻理解、多圖聯合理解、多圖 ICL 視覺類比學習

原文鏈接：手機上能跑的「GPT-4V」來啦！多圖、視頻理解首次上端！面壁小鋼炮開源史上最強端側多模態