AIGC動態歡迎閱讀
原標題:新架構Mamba更新二代!作者:別爭了,數學上Transformer和SSM是一回事
關鍵字:注意力,模型,矩陣,狀態,線性
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAITransformer挑戰者、新架構Mamba,剛剛更新了第二代:
Mamba-2,狀態空間擴大8倍,訓練速度提高50%!
更重要的是,團隊研究發現原來Transformer和狀態空間模型(SSM)竟然是近親???
兩大主流序列建模架構,在此統一了。
沒錯,這篇論文的提出的重磅發現:Transformer中的注意力機制與SSM存在著非常緊密的數系。
團隊通過提出一個叫結構化狀態空間二元性(Structured State Space Duality,SSD)的理論框架,把這兩大模型家族統一了起來。
Mamba一代論文年初被ICLR拒稿,當時還讓許多學者集體破防,引起一陣熱議。
這次二代論文在理論和實驗上都更豐富了,成功入選ICML 2024。
作者依然是Albert Gu和Tri Dao兩位。
他們透露,論文題目中“Transformers are SSMs”是致敬了4年前的線性注意力經典論文“Transformers are RNNs”。
那么,SSM和注意力機制究竟是怎么聯系起來的,Mamba-2模型層面又做出哪些改進?
統一S
原文鏈接:新架構Mamba更新二代!作者:別爭了,數學上Transformer和SSM是一回事
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...