一文看懂Mamba，Transformer最強競爭者

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：一文看懂Mamba，Transformer最強競爭者
關鍵字：報告,模型,序列,狀態,數據
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：PandaMamba 雖好，但發展尚早。深度學習架構有很多，但近些年最成功的莫過于 Transformer，其已經在多個應用領域確立了自己的主導地位。
如此成功的一大關鍵推動力是注意力機制，這能讓基于 Transformer 的模型關注與輸入序列相關的部分，實現更好的上下文理解。但是，注意力機制的缺點是計算開銷大，會隨輸入規模而二次增長，也因此就難以處理非常長的文本。
好在前段時間誕生了一種頗具潛力的新架構：結構化的狀態空間序列模型（SSM）。該架構能高效地捕獲序列數據中的復雜依賴關系，并由此成為 Transformer 的一大強勁對手。
這類模型的設計靈感來自經典的狀態空間模型 —— 我們可以將其看作是循環神經網絡和卷積神經網絡的融合模型。它們可使用循環或卷積運算進行高效地計算，從而讓計算開銷隨序列長度而線性或近線性地變化，由此大幅降低計算成本。
更具體而言，SSM 最成功的變體之一 Mamba 的建模能力已經可以比肩 Transformer，同時還能維持隨序列長度的線性可擴展性。
Mamba 首先引入了一個簡單卻有效選擇機制，其可根據輸入對 SSM 進行重新參數

原文鏈接：一文看懂Mamba，Transformer最強競爭者