Mamba-2新架構出世一統江湖！普林斯頓CMU華人再出神作，性能狂飆8倍

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：Mamba-2新架構出世一統江湖！普林斯頓CMU華人再出神作，性能狂飆8倍
關鍵字：注意力,序列,模型,維度,矩陣
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】在開源社區引起「海嘯」的Mamba架構，再次卷土重來！這次，Mamba-2順利拿下ICML。通過統一SSM和注意力機制，Transformer和SSM直接成了「一家親」，Mamba-2這是要一統江湖了？年前，Mamba被頂會ICLR拒稿的消息曾引起軒然。
甚至有研究人員表示：如果這種工作都被拒了，那我們這些「小丑」要怎么辦？
這次，新一代的Mamba-2卷土重來、再戰頂會，順利拿下了ICML 2024！
仍是前作的兩位大佬（換了個順序），仍是熟悉的配方：
論文地址：https://arxiv.org/pdf/2405.21060
開源代碼和模型權重：https://github.com/state-spaces/mamba
不同的是，作者在更高的視角上，統一了狀態空間模型（SSM）和注意力機制（Attention），也就是文章標題所說的「Transformers are SSMs」。
——這下咱們都是一家人了，不用動不動就「打生」了。
性能方面，Mamba-2采用了新的算法（SSD），比前代提速2-8倍，對比FlashAttention-

原文鏈接：Mamba-2新架構出世一統江湖！普林斯頓CMU華人再出神作，性能狂飆8倍