讓「GPT-4V」跑在手機上,這家中國大模型公司做到了?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:讓「GPT-4V」跑在手機上,這家中國大模型公司做到了?
關(guān)鍵字:模型,能力,視頻,方面,視覺
文章來源:AI科技評論
內(nèi)容字數(shù):0字
內(nèi)容摘要:
對標(biāo) GPT-4V,面壁讓實時視頻理解成功“跑”在端側(cè)。作者 | 朱可軒
編輯 | 陳彩嫻
真實世界的視覺信息是流動的,而在處理流動性的視覺信息上,端側(cè)視頻理解具有天然優(yōu)勢,手機、PC、AR、機器人、智能座駕等端側(cè)設(shè)備自帶的攝像頭,具有天然的多模態(tài)輸入能力。
與云端相比,端側(cè)離用戶更近,鏈路更短,效率更高,同時具有更強的信息安全優(yōu)勢。
今日,面壁正式發(fā)布了 MiniCPM-V 2.6,在端側(cè)性能實現(xiàn)全面對標(biāo) GPT-4V——
據(jù)介紹,MiniCPM-V 2.6 首次在端側(cè)實現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V,三項能力均取得 20B 以下 SOTA 成績,單圖理解越級比肩 Gemini 1.5 Pro 和 GPT-4o mini 。
而類比知識密度來看,得益于視覺 token 相比上一代下降 30% ,比同類模型低 75%,MiniCPM-V 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density)。
值得一提的是,面壁還將“實時”視頻理解、多圖聯(lián)合理解、多圖 ICL等能力首次搬上了端側(cè)。
量化后端側(cè)內(nèi)存僅占 6 GB,端側(cè)
原文鏈接:讓「GPT-4V」跑在手機上,這家中國大模型公司做到了?
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...