開源多模態(tài)SOTA再易主,19B模型比肩GPT-4v,16G顯存就能跑
AIGC動態(tài)歡迎閱讀
原標題:開源多模態(tài)SOTA再易主,19B模型比肩GPT-4v,16G顯存就能跑
關(guān)鍵字:模型,中文,視覺,數(shù)據(jù),能力
文章來源:量子位
內(nèi)容字數(shù):4756字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI開源多模態(tài)SOTA模型再易主!
Hugging Face開發(fā)者大使剛剛把王冠交給了CogVLM2,來自大模型創(chuàng)業(yè)公司智譜AI。
CogVLM2甚至在3項基準測試上超過GPT-4v和Gemini Pro,還不是超過一點,是大幅領(lǐng)先。
網(wǎng)友聞訊而來,發(fā)現(xiàn)ChatGPT新絕技之“AI挑瓜”,我們開源屆也不缺了。更復雜的學術(shù)圖表,它也能理解并給出詳細解釋。
CogVLM2整體模型參數(shù)量僅19B,卻能在多項指標取得接近或超過GPT-4V的水平,此外還有幾大亮點:
支持8K文本長度
支持高達1344*1344的圖像分辨率
提供支持中英文雙語的開源模型版本
開源可商用
英文版經(jīng)網(wǎng)友測試也有不錯的表現(xiàn)。
特別值得注意的是,盡管CogVLM2的總參數(shù)量為19B,但得益于精心設(shè)計的多專家模塊結(jié)構(gòu),每次進行推理時實際激活的參數(shù)量僅約12B,這樣一來,全量推理(BF16/PF16)需要42GB 顯存。
接下來劃重點了:
Int4量化版本,僅需要16GB顯存。
也就是一張英偉達RTX4080,或者剛出不久的RTX4070 Ti SUPER就能搞定了。
性能不俗,
原文鏈接:開源多模態(tài)SOTA再易主,19B模型比肩GPT-4v,16G顯存就能跑
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破