實時視頻理解首次上端!面壁小鋼炮2.6 攜單圖、多圖、視頻理解3 SOTA,全面對標 GPT-4V 最強多模態(tài)
AIGC動態(tài)歡迎閱讀
原標題:實時視頻理解首次上端!面壁小鋼炮2.6 攜單圖、多圖、視頻理解3 SOTA,全面對標 GPT-4V 最強多模態(tài)
關(guān)鍵字:比亞迪,模型,能力,華為,字節(jié)跳動
文章來源:AI前線
內(nèi)容字數(shù):0字
內(nèi)容摘要:
整理 | 褚杏娟
8 月 6 日,面壁智能宣布「小鋼炮」 MiniCPM-V 2.6 模型重磅上新!據(jù)悉,該模型僅 8B 參數(shù),但將實時視頻理解、多圖聯(lián)合理解(還包括多圖 OCR、多圖 ICL 等)能力首次搬上了端側(cè)多模態(tài)模型。
據(jù)介紹,MiniCPM-V 2.6 延續(xù)了小鋼炮系列一貫的以小博大與高效低成本特點:
“三合一”最強端側(cè)多模態(tài):首次在端側(cè)實現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越 GPT-4V,單圖理解越級比肩多模態(tài)王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini 。
多項功能首次上端:實時視頻理解、多圖聯(lián)合理解、多圖 ICL 視覺類比學習、多圖 OCR 等功能,第一次讓端側(cè)模型睜開觀察、理解真實流動世界的「眼睛」,不僅看得清晰,還能有樣學樣、模仿學習。
極致高效,最高多模態(tài)像素密度:類比知識密度,小鋼炮 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density),在端側(cè)方寸之地,一路將大模型「能效比」挖到極限。這一進展,得益于視覺 token 相比上一代下降 30% ,比同類模型低 75%。
端側(cè)友好:量
原文鏈接:實時視頻理解首次上端!面壁小鋼炮2.6 攜單圖、多圖、視頻理解3 SOTA,全面對標 GPT-4V 最強多模態(tài)
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介: