首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源
關鍵字：模型,語言,視覺,復雜度,本文
文章來源：機器之心
內容字數：6574字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言
近年來，多模態大型語言模型（MLLM）在各個領域的應用取得了顯著的成功。然而，作為許多下游任務的基礎模型，當前的 MLLM 由眾所周知的 Transformer 網絡構成，這種網絡具有較低效的二次計算復雜度。為了提高這類基礎模型的效率，大量的實驗表明：（1）Cobra 與當前計算效率高的最先進方法（例如，LLaVA-Phi，TinyLLaVA 和 MobileVLM v2）具有極具競爭力的性能，并且由于 Cobra 的線性序列建模，其速度更快。（2）有趣的是，封閉集挑戰性預測基準的結果顯示，Cobra 在克服視覺錯覺和空間關系判斷方面表現良好。（3）值得注意的是，Cobra 甚至在參數數量只有 LLaVA 的 43% 左右的情況下，也取得了與 LLaV

原文鏈接：首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源