首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源
關(guān)鍵字:模型,語言,視覺,復(fù)雜度,本文
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6574字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言
近年來,多模態(tài)大型語言模型(MLLM)在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而,作為許多下游任務(wù)的基礎(chǔ)模型,當(dāng)前的 MLLM 由眾所周知的 Transformer 網(wǎng)絡(luò)構(gòu)成,這種網(wǎng)絡(luò)具有較低效的二次計(jì)算復(fù)雜度。為了提高這類基礎(chǔ)模型的效率,大量的實(shí)驗(yàn)表明:(1)Cobra 與當(dāng)前計(jì)算效率高的最先進(jìn)方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有極具競爭力的性能,并且由于 Cobra 的線性序列建模,其速度更快。(2)有趣的是,封閉集挑戰(zhàn)性預(yù)測(cè)基準(zhǔn)的結(jié)果顯示,Cobra 在克服視覺錯(cuò)覺和空間關(guān)系判斷方面表現(xiàn)良好。(3)值得注意的是,Cobra 甚至在參數(shù)數(shù)量只有 LLaVA 的 43% 左右的情況下,也取得了與 LLaV
原文鏈接:首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)