AIGC動態歡迎閱讀
原標題:開源模型突破原生多模態大模型性能瓶頸,上海AI Lab代季峰團隊出品
關鍵字:視覺,模型,文本,語言,數據
文章來源:量子位
內容字數:0字
內容摘要:
Mono-InternVL團隊 投稿量子位 | 公眾號 QbitAI原生多模態大模型性能瓶頸,迎來新突破!
上海AI Lab代季峰老師團隊,提出了全新的原生多模態大模型Mono-InternVL。
與非原生模型相比,該模型首個單詞延遲最多降低67%,在多個評測數據集上均達到了SOTA水準。
與常見的采用CLIP等結構進行視覺編碼的模塊化多模態大模型不同,Mono-InternVL將視覺感知和多模態理解均集成到大語言模型中。
相比于現有多模態大模型,Mono-InternVL有以下技術亮點:
開源原生多模態架構最優解:無需額外的視覺編碼器,通過內嵌視覺專家打通了一條從大語言模型到原生多模態模型擴展的新路徑,2B模型多模態能力優于7B參數的現有原生多模態模型,多個指標超越InternVL1.5。
兼具視覺靈活性和部署高效性:支持高達2M像素輸入的動態圖像分辨率,在原生多模態架構中感知精度最高。相比于InternVL1.5,在部署框架上首個單詞延遲最多降低67%,整體吞吐量提高31%。
原生多模態大模型遺忘問題現有的多模態大模型(MLLM)通常采用視覺編碼器-對齊模塊-語言模型的結構,將
原文鏈接:開源模型突破原生多模態大模型性能瓶頸,上海AI Lab代季峰團隊出品
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...