解決原生MLLM災難性遺忘問題！上海AI Lab提出原生多模態大模型Mono-InternVL | 博士后研究員羅根講座預告

AIGC動態歡迎閱讀

原標題：解決原生MLLM災難性遺忘問題！上海AI Lab提出原生多模態大模型Mono-InternVL | 博士后研究員羅根講座預告
關鍵字：報告,模型,視覺,災難性,論文
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

現有的多模態大模型（MLLM）通常將預訓練的視覺編碼器與大語言模型結合來實現，即模塊化MLLM。最近新興的Chameleon、EVE等原生MLLM，將視覺感知和多模態理解直接集成到LLM中，能夠更方便地通過現有工具進行部署，且具備更高的推理效率。
然而，由于原生MLLM缺乏視覺能力，但視覺預訓練過程中語言基座能力常常出現災難性遺忘問題，這導致現有原生MLLM的性能仍顯著低于模塊化MLLM。
為此，上海人工智能實驗室通用視覺團隊（OpenGVLab）聯合清華大學、上海交通大學等提出了全新的原生多模態大模型Mono-InternVL。該模型采用增量預訓練方法，解決了此前原生MLLM中的災難性遺忘問題。與非原生模型相比，Mono-InternVL首個單詞延遲能夠降低67%，且在多個評測數據集上均達到了SOTA水準。相比于現有多模態大模型，Mono-InternVL無需額外的視覺編碼器，通過內嵌視覺專家打通了一條從大語言模型到原生多模態模型擴展的新路徑，且2B模型多模態能力優于7B參數的現有原生多模態模型，多個指標超越了InternVL1.5。
Mono-InternVL兼具了視覺靈活性和部署

原文鏈接：解決原生MLLM災難性遺忘問題！上海AI Lab提出原生多模態大模型Mono-InternVL | 博士后研究員羅根講座預告