新架構(gòu)Mamba更新二代!作者:別爭了,數(shù)學(xué)上Transformer和SSM是一回事
AIGC動態(tài)歡迎閱讀
原標(biāo)題:新架構(gòu)Mamba更新二代!作者:別爭了,數(shù)學(xué)上Transformer和SSM是一回事
關(guān)鍵字:注意力,模型,矩陣,狀態(tài),線性
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAITransformer挑戰(zhàn)者、新架構(gòu)Mamba,剛剛更新了第二代:
Mamba-2,狀態(tài)空間擴(kuò)大8倍,訓(xùn)練速度提高50%!
更重要的是,團(tuán)隊研究發(fā)現(xiàn)原來Transformer和狀態(tài)空間模型(SSM)竟然是近親???
兩大主流序列建模架構(gòu),在此統(tǒng)一了。
沒錯,這篇論文的提出的重磅發(fā)現(xiàn):Transformer中的注意力機(jī)制與SSM存在著非常緊密的數(shù)系。
團(tuán)隊通過提出一個叫結(jié)構(gòu)化狀態(tài)空間二元性(Structured State Space Duality,SSD)的理論框架,把這兩大模型家族統(tǒng)一了起來。
Mamba一代論文年初被ICLR拒稿,當(dāng)時還讓許多學(xué)者集體破防,引起一陣熱議。
這次二代論文在理論和實驗上都更豐富了,成功入選ICML 2024。
作者依然是Albert Gu和Tri Dao兩位。
他們透露,論文題目中“Transformers are SSMs”是致敬了4年前的線性注意力經(jīng)典論文“Transformers are RNNs”。
那么,SSM和注意力機(jī)制究竟是怎么聯(lián)系起來的,Mamba-2模型層面又做出哪些改進(jìn)?
統(tǒng)一S
原文鏈接:新架構(gòu)Mamba更新二代!作者:別爭了,數(shù)學(xué)上Transformer和SSM是一回事
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破