在各種視覺任務中表現出超越現有的視覺Mamba模型的精度,同時保持了線性注意力優越的并行計算與高推理速度。
原標題:從線性注意力視角揭秘視覺Mamba,清華、阿里合作提出全新MILA模型
文章來源:機器之心
內容字數:6662字
研究背景與意義
近年來,狀態空間模型(SSM)在有效序列建模中引起了廣泛關注,尤其是Mamba模型以線性計算復雜度實現了對輸入序列的高效建模。本文由清華大學自動化系的博士生韓東辰及其指導老師黃高副教授共同撰寫,探討了Mamba模型與線性注意力之間的內在聯系,并提出了一種新的模型結構MILA,旨在結合兩者的優點,提升視覺任務的表現。
1. Mamba模型與線性注意力的關系
本文首先揭示了Mamba模型與線性注意力之間的深刻聯系。Mamba模型可以被視為具有特殊設計的線性注意力,包括輸入門、遺忘門、快捷連接、無注意力歸一化和單頭設計等。通過統一的公式表述,二者在核心操作上展現出相似性,這為后續研究提供了新的視角。
2. 實驗分析與結果
通過實驗證明,Mamba模型的成功主要歸因于其等效遺忘門和宏觀結構設計。這些設計顯著提升了模型的性能,但遺忘門在視覺模型中可能導致推理速度的下降。為此,本文提出利用位置編碼來替代遺忘門,從而在保持全局感受野的同時,實現并行計算和快速推理。
3. MILA模型的提出
在對Mamba與線性注意力的分析基礎上,本文提出了Mamba-Inspired Linear Attention(MILA)模型。MILA融合了Mamba的設計思想,能夠以線性復雜度實現全局建模,并在多種視覺任務中優于現有的視覺Mamba模型。實驗結果顯示,MILA在圖像分類和物體檢測等任務上表現出色,且推理速度更快。
4. 結論與未來展望
綜上所述,Mamba模型的特殊設計使其在性能上超越了線性注意力,而MILA模型則在此基礎上進一步優化,適應視覺任務的需求。未來的研究可以繼續探索狀態空間模型在其他領域的應用潛力,推動高效模型架構的設計與發展。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺