AIGC動態歡迎閱讀
原標題:一文看懂Mamba,Transformer最強競爭者
關鍵字:報告,模型,序列,狀態,數據
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:PandaMamba 雖好,但發展尚早。深度學習架構有很多,但近些年最成功的莫過于 Transformer,其已經在多個應用領域確立了自己的主導地位。
如此成功的一大關鍵推動力是注意力機制,這能讓基于 Transformer 的模型關注與輸入序列相關的部分,實現更好的上下文理解。但是,注意力機制的缺點是計算開銷大,會隨輸入規模而二次增長,也因此就難以處理非常長的文本。
好在前段時間誕生了一種頗具潛力的新架構:結構化的狀態空間序列模型(SSM)。該架構能高效地捕獲序列數據中的復雜依賴關系,并由此成為 Transformer 的一大強勁對手。
這類模型的設計靈感來自經典的狀態空間模型 —— 我們可以將其看作是循環神經網絡和卷積神經網絡的融合模型。它們可使用循環或卷積運算進行高效地計算,從而讓計算開銷隨序列長度而線性或近線性地變化,由此大幅降低計算成本。
更具體而言,SSM 最成功的變體之一 Mamba 的建模能力已經可以比肩 Transformer,同時還能維持隨序列長度的線性可擴展性。
Mamba 首先引入了一個簡單卻有效選擇機制,其可根據輸入對 SSM 進行重新參數
原文鏈接:一文看懂Mamba,Transformer最強競爭者
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...