突破視覺極限:浙大、騰訊優(yōu)圖與華中科大聯(lián)手推出輕量化MobileMamba模型
Top-1準確率高達83.6%
原標題:輕量化MobileMamba視覺模型來了|浙大/騰訊優(yōu)圖/華中科大聯(lián)合出品
文章來源:量子位
內(nèi)容字數(shù):5160字
MobileMamba:高效輕量化視覺模型的
在移動設(shè)備日益普及的今天,對高效、快速且準確的視覺處理需求不斷增長。為此,浙大、騰訊優(yōu)圖和華中科技大學(xué)的團隊提出了輕量化模型MobileMamba,旨在平衡效率與效果,尤其在高分辨率輸入下實現(xiàn)出色的推理速度。
1. 研究背景與現(xiàn)有挑戰(zhàn)
傳統(tǒng)的輕量化模型主要基于CNN和Transformer結(jié)構(gòu)。雖然CNN如MobileNet和GhostNet通過深度可分離卷積等技術(shù)降低了計算復(fù)雜度,但其局部感受野限制了長距離依賴的建模能力。而Transformer雖然具備全局建模能力,卻因平方級別的計算復(fù)雜度在高分辨率輸入下表現(xiàn)不佳。近來的Mamba模型因其線性計算復(fù)雜度而受到關(guān)注,但基于Mamba的模型如LocalMamba和EfficientVMamba在實際推理速度上并未達到預(yù)期。
2. MobileMamba的設(shè)計與創(chuàng)新
MobileMamba通過三階段網(wǎng)絡(luò)的粗粒度設(shè)計,顯著提升了推理速度。同時,團隊在細粒度上提出了高效多感受野特征交互(MRFFI)模塊,結(jié)合小波變換增強的Mamba、深度可分離卷積和去冗余恒等映射,確保了全局與多尺度信息的融合,提高了高頻細節(jié)特征的提取能力。
3. 實驗結(jié)果與性能提升
大量實驗結(jié)果表明,MobileMamba在ImageNet-1K數(shù)據(jù)集上的Top-1準確率最高可達83.6,速度是LocalVim的21倍、EfficientVMamba的3.3倍。同時,在下游任務(wù)如目標檢測和語義分割中,MobileMamba同樣展現(xiàn)了卓越的性能,在各項任務(wù)中均超過了傳統(tǒng)模型。
4. 結(jié)論與未來展望
總體而言,MobileMamba通過其三階段框架和MRFFI模塊,在性能與效率之間達成了良好的平衡。該模型不僅在分類任務(wù)中表現(xiàn)出色,也對高分辨率輸入的下游任務(wù)展現(xiàn)了強大的適應(yīng)能力。未來,MobileMamba有望在更多視覺任務(wù)中拓展應(yīng)用,推動輕量化模型研究的進一步發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破