AIGC動態歡迎閱讀
原標題:Mamba真比Transformer更優嗎?Mamba原作者:兩個都要!混合架構才是最優解
關鍵字:模型,報告,任務,架構,電話簿
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊
【新智元導讀】Mamba模型由于匹敵Transformer的巨大潛力,在推出半年多的時間內引起了巨大關注。但在大規模預訓練的場景下,這兩個架構還未有「一較高低」的機會。最近,英偉達、CMU、普林斯頓等機構聯合發表的實證研究論文填補了這個空白。去年12月,CMU、普林斯頓的兩位華人學者Albert Gu和Tri Dao一舉推出了Mamba架構,向Transformer多年的霸主地位發起挑戰。
論文地址:https://arxiv.org/abs/2312.00752
完全拋棄注意力機制和MLP模塊、上下文長度線性縮放、推理速度比Transformer快5倍…這些特點讓所有人都為之一振,Jim Fan大佬也發推贊嘆「為Transformer的研究感到興奮」。
論文發表后的6個月中,兩位作者發現,雖然Mamba很強大,但是大家依舊更關注各種Transformer的變體。
畢竟整個學術社區在注意力機制上深耕多年,從模型、標準庫到算子、GPU,此時完全拋棄之前的研究、轉向Mamba的SSM不太現實,也讓Mamba架構顯得非常格格不入。
于是,我們看到Mamba-2的論
原文鏈接:Mamba真比Transformer更優嗎?Mamba原作者:兩個都要!混合架構才是最優解
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...