AIGC動態歡迎閱讀
原標題:面壁智能發布最強端側多模態模型:超越Gemini Pro 、GPT-4V,圖像編碼快150倍!
關鍵字:華為,報告,字節跳動,模型,能力
文章來源:AI前線
內容字數:4836字
內容摘要:
整理 | 褚杏娟
5 月 20 日,面壁智能小鋼炮 MiniCPM 系列推出端側多模態模型 MiniCPM-Llama3-V 2.5 并開源。據悉,該模型且支持 30+ 多種語言,并且具有以下特性:
最強端側多模態綜合性能:超越多模態巨無霸 Gemini Pro 、GPT-4V;
OCR 能力 SOTA!9 倍像素更清晰,難圖長圖長文本精準識別;
圖像編碼快 150 倍!首次端側系統級多模態加速。
MiniCPM-Llama3-V 2.5 開源地址:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM 系列開源地址:
https://github.com/OpenBMB/MiniCPM
Hugging Face 下載地址:
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_58 B 端側模型,
超越 GPT-4V、Gemini Pro
MiniCPM-Llama3-V 2.5 以 8B 端側模型參數量級,貢獻了驚艷的 OCR(光學字符識別)SOTA 成績,以及端側模型中的最佳多模態綜合成績與幻覺能
原文鏈接:面壁智能發布最強端側多模態模型:超越Gemini Pro 、GPT-4V,圖像編碼快150倍!
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...