Mamba真比Transformer更優嗎？Mamba原作者：兩個都要！混合架構才是最優解

AIGC動態歡迎閱讀

原標題：Mamba真比Transformer更優嗎？Mamba原作者：兩個都要！混合架構才是最優解
關鍵字：模型,報告,任務,架構,電話簿
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊
【新智元導讀】Mamba模型由于匹敵Transformer的巨大潛力，在推出半年多的時間內引起了巨大關注。但在大規模預訓練的場景下，這兩個架構還未有「一較高低」的機會。最近，英偉達、CMU、普林斯頓等機構聯合發表的實證研究論文填補了這個空白。去年12月，CMU、普林斯頓的兩位華人學者Albert Gu和Tri Dao一舉推出了Mamba架構，向Transformer多年的霸主地位發起挑戰。
論文地址：https://arxiv.org/abs/2312.00752
完全拋棄注意力機制和MLP模塊、上下文長度線性縮放、推理速度比Transformer快5倍…這些特點讓所有人都為之一振，Jim Fan大佬也發推贊嘆「為Transformer的研究感到興奮」。
論文發表后的6個月中，兩位作者發現，雖然Mamba很強大，但是大家依舊更關注各種Transformer的變體。
畢竟整個學術社區在注意力機制上深耕多年，從模型、標準庫到算子、GPU，此時完全拋棄之前的研究、轉向Mamba的SSM不太現實，也讓Mamba架構顯得非常格格不入。
于是，我們看到Mamba-2的論

原文鏈接：Mamba真比Transformer更優嗎？Mamba原作者：兩個都要！混合架構才是最優解