開源多模態(tài)SOTA再易主，19B模型比肩GPT-4v，16G顯存就能跑

AIGC動態(tài)歡迎閱讀

原標題：開源多模態(tài)SOTA再易主，19B模型比肩GPT-4v，16G顯存就能跑
關(guān)鍵字：模型,中文,視覺,數(shù)據(jù),能力
文章來源：量子位
內(nèi)容字數(shù)：4756字

內(nèi)容摘要：

夢晨發(fā)自凹非寺量子位 | 公眾號 QbitAI開源多模態(tài)SOTA模型再易主！
Hugging Face開發(fā)者大使剛剛把王冠交給了CogVLM2，來自大模型創(chuàng)業(yè)公司智譜AI。
CogVLM2甚至在3項基準測試上超過GPT-4v和Gemini Pro，還不是超過一點，是大幅領(lǐng)先。
網(wǎng)友聞訊而來，發(fā)現(xiàn)ChatGPT新絕技之“AI挑瓜”，我們開源屆也不缺了。更復雜的學術(shù)圖表，它也能理解并給出詳細解釋。
CogVLM2整體模型參數(shù)量僅19B，卻能在多項指標取得接近或超過GPT-4V的水平，此外還有幾大亮點：
支持8K文本長度
支持高達1344*1344的圖像分辨率
提供支持中英文雙語的開源模型版本
開源可商用
英文版經(jīng)網(wǎng)友測試也有不錯的表現(xiàn)。
特別值得注意的是，盡管CogVLM2的總參數(shù)量為19B，但得益于精心設(shè)計的多專家模塊結(jié)構(gòu)，每次進行推理時實際激活的參數(shù)量僅約12B，這樣一來，全量推理（BF16/PF16）需要42GB 顯存。
接下來劃重點了：
Int4量化版本，僅需要16GB顯存。
也就是一張英偉達RTX4080，或者剛出不久的RTX4070 Ti SUPER就能搞定了。
性能不俗，

原文鏈接：開源多模態(tài)SOTA再易主，19B模型比肩GPT-4v，16G顯存就能跑