新架構Mamba更新二代！作者：別爭了，數學上Transformer和SSM是一回事

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：新架構Mamba更新二代！作者：別爭了，數學上Transformer和SSM是一回事
關鍵字：注意力,模型,矩陣,狀態,線性
文章來源：量子位
內容字數：0字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAITransformer挑戰者、新架構Mamba，剛剛更新了第二代：
Mamba-2，狀態空間擴大8倍，訓練速度提高50%！
更重要的是，團隊研究發現原來Transformer和狀態空間模型（SSM）竟然是近親？？?
兩大主流序列建模架構，在此統一了。
沒錯，這篇論文的提出的重磅發現：Transformer中的注意力機制與SSM存在著非常緊密的數系。
團隊通過提出一個叫結構化狀態空間二元性（Structured State Space Duality，SSD）的理論框架，把這兩大模型家族統一了起來。
Mamba一代論文年初被ICLR拒稿，當時還讓許多學者集體破防，引起一陣熱議。
這次二代論文在理論和實驗上都更豐富了，成功入選ICML 2024。
作者依然是Albert Gu和Tri Dao兩位。
他們透露，論文題目中“Transformers are SSMs”是致敬了4年前的線性注意力經典論文“Transformers are RNNs”。
那么，SSM和注意力機制究竟是怎么聯系起來的，Mamba-2模型層面又做出哪些改進？
統一S

原文鏈接：新架構Mamba更新二代！作者：別爭了，數學上Transformer和SSM是一回事

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

新架構Mamba更新二代！作者：別爭了，數學上Transformer和SSM是一回事

AIGC動態歡迎閱讀

內容摘要：

聯系作者

即插即用，快速適配！港大FlashST：簡單通用的智慧交通時空預測模型 | ICML 2024

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

新架構Mamba更新二代！作者：別爭了，數學上Transformer和SSM是一回事

AIGC動態歡迎閱讀

內容摘要：

聯系作者

即插即用，快速適配！港大FlashST：簡單通用的智慧交通時空預測模型 | ICML 2024

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

新架構Mamba更新二代！作者：別爭了，數學上Transformer和SSM是一回事

即插即用，快速適配！港大FlashST：簡單通用的智慧交通時空預測模型 | ICML 2024