開源模型突破原生多模態(tài)大模型性能瓶頸，上海AI Lab代季峰團隊出品

AIGC動態(tài)歡迎閱讀

原標題：開源模型突破原生多模態(tài)大模型性能瓶頸，上海AI Lab代季峰團隊出品
關鍵字：視覺,模型,文本,語言,數(shù)據(jù)
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

Mono-InternVL團隊投稿量子位 | 公眾號 QbitAI原生多模態(tài)大模型性能瓶頸，迎來新突破！
上海AI Lab代季峰老師團隊，提出了全新的原生多模態(tài)大模型Mono-InternVL。
與非原生模型相比，該模型首個單詞延遲最多降低67%，在多個評測數(shù)據(jù)集上均達到了SOTA水準。
與常見的采用CLIP等結構進行視覺編碼的模塊化多模態(tài)大模型不同，Mono-InternVL將視覺感知和多模態(tài)理解均集成到大語言模型中。
相比于現(xiàn)有多模態(tài)大模型，Mono-InternVL有以下技術亮點：
開源原生多模態(tài)架構最優(yōu)解：無需額外的視覺編碼器，通過內(nèi)嵌視覺專家打通了一條從大語言模型到原生多模態(tài)模型擴展的新路徑，2B模型多模態(tài)能力優(yōu)于7B參數(shù)的現(xiàn)有原生多模態(tài)模型，多個指標超越InternVL1.5。
兼具視覺靈活性和部署高效性：支持高達2M像素輸入的動態(tài)圖像分辨率，在原生多模態(tài)架構中感知精度最高。相比于InternVL1.5，在部署框架上首個單詞延遲最多降低67%，整體吞吐量提高31%。
原生多模態(tài)大模型遺忘問題現(xiàn)有的多模態(tài)大模型（MLLM）通常采用視覺編碼器-對齊模塊-語言模型的結構，將

原文鏈接：開源模型突破原生多模態(tài)大模型性能瓶頸，上海AI Lab代季峰團隊出品