AIGC動態歡迎閱讀
原標題:Mamba-2:超越 Transformer 的新架構,訓練效率大幅提升!
關鍵字:矩陣,報告,狀態,注意力,算法
文章來源:人工智能學家
內容字數:0字
內容摘要:
機器之心報道
來源:機器學習算法與Python學習自 2017 年被提出以來,Transformer 已經成為 AI 大模型的主流架構,一直穩居語言建模方面 C 位。
但隨著模型規模的擴展和需要處理的序列不斷變長,Transformer 的局限性也逐漸凸顯。一個很明顯的缺陷是:Transformer 模型中自注意力機制的計算量會隨著上下文長度的增加呈平方級增長。
幾個月前,Mamba 的出現打破了這一局面,它可以隨上下文長度的增加實現線性擴展。隨著 Mamba 的發布,這些狀態空間模型 (SSM) 在中小型規模上已經實現了與 Transformers 匹敵,甚至超越 Transformers。
Mamba 的作者只有兩位,一位是卡內基梅隆大學機器學習系助理教授 Albert Gu,另一位是 Together.AI 首席科學家、普林斯頓大學計算機科學助理教授 Tri Dao。
Mamba 面世之后的這段時間里,社區反應熱烈。可惜的是,Mamba 的論文卻慘遭 ICLR 拒稿,讓一眾研究者頗感意外。
僅僅六個月后,原作者帶隊,更強大的 Mamba 2 正式發布了。論文地址:https://
原文鏈接:Mamba-2:超越 Transformer 的新架構,訓練效率大幅提升!
聯系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...