開源模型突破原生多模態(tài)大模型性能瓶頸,上海AI Lab代季峰團隊出品
AIGC動態(tài)歡迎閱讀
原標題:開源模型突破原生多模態(tài)大模型性能瓶頸,上海AI Lab代季峰團隊出品
關鍵字:視覺,模型,文本,語言,數(shù)據(jù)
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
Mono-InternVL團隊 投稿量子位 | 公眾號 QbitAI原生多模態(tài)大模型性能瓶頸,迎來新突破!
上海AI Lab代季峰老師團隊,提出了全新的原生多模態(tài)大模型Mono-InternVL。
與非原生模型相比,該模型首個單詞延遲最多降低67%,在多個評測數(shù)據(jù)集上均達到了SOTA水準。
與常見的采用CLIP等結構進行視覺編碼的模塊化多模態(tài)大模型不同,Mono-InternVL將視覺感知和多模態(tài)理解均集成到大語言模型中。
相比于現(xiàn)有多模態(tài)大模型,Mono-InternVL有以下技術亮點:
開源原生多模態(tài)架構最優(yōu)解:無需額外的視覺編碼器,通過內(nèi)嵌視覺專家打通了一條從大語言模型到原生多模態(tài)模型擴展的新路徑,2B模型多模態(tài)能力優(yōu)于7B參數(shù)的現(xiàn)有原生多模態(tài)模型,多個指標超越InternVL1.5。
兼具視覺靈活性和部署高效性:支持高達2M像素輸入的動態(tài)圖像分辨率,在原生多模態(tài)架構中感知精度最高。相比于InternVL1.5,在部署框架上首個單詞延遲最多降低67%,整體吞吐量提高31%。
原生多模態(tài)大模型遺忘問題現(xiàn)有的多模態(tài)大模型(MLLM)通常采用視覺編碼器-對齊模塊-語言模型的結構,將
原文鏈接:開源模型突破原生多模態(tài)大模型性能瓶頸,上海AI Lab代季峰團隊出品
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: