Top-1準確率高達83.6%
原標題:輕量化MobileMamba視覺模型來了|浙大/騰訊優圖/華中科大聯合出品
文章來源:量子位
內容字數:5160字
MobileMamba:高效輕量化視覺模型的
在移動設備日益普及的今天,對高效、快速且準確的視覺處理需求不斷增長。為此,浙大、騰訊優圖和華中科技大學的團隊提出了輕量化模型MobileMamba,旨在平衡效率與效果,尤其在高分辨率輸入下實現出色的推理速度。
1. 研究背景與現有挑戰
傳統的輕量化模型主要基于CNN和Transformer結構。雖然CNN如MobileNet和GhostNet通過深度可分離卷積等技術降低了計算復雜度,但其局部感受野限制了長距離依賴的建模能力。而Transformer雖然具備全局建模能力,卻因平方級別的計算復雜度在高分辨率輸入下表現不佳。近來的Mamba模型因其線性計算復雜度而受到關注,但基于Mamba的模型如LocalMamba和EfficientVMamba在實際推理速度上并未達到預期。
2. MobileMamba的設計與創新
MobileMamba通過三階段網絡的粗粒度設計,顯著提升了推理速度。同時,團隊在細粒度上提出了高效多感受野特征交互(MRFFI)模塊,結合小波變換增強的Mamba、深度可分離卷積和去冗余恒等映射,確保了全局與多尺度信息的融合,提高了高頻細節特征的提取能力。
3. 實驗結果與性能提升
大量實驗結果表明,MobileMamba在ImageNet-1K數據集上的Top-1準確率最高可達83.6,速度是LocalVim的21倍、EfficientVMamba的3.3倍。同時,在下游任務如目標檢測和語義分割中,MobileMamba同樣展現了卓越的性能,在各項任務中均超過了傳統模型。
4. 結論與未來展望
總體而言,MobileMamba通過其三階段框架和MRFFI模塊,在性能與效率之間達成了良好的平衡。該模型不僅在分類任務中表現出色,也對高分辨率輸入的下游任務展現了強大的適應能力。未來,MobileMamba有望在更多視覺任務中拓展應用,推動輕量化模型研究的進一步發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破