AIGC動態歡迎閱讀
原標題:挑戰Transformer的Mamba是什么來頭?作者博士論文理清SSM進化路徑
關鍵字:序列,模型,長程,建模,狀態
文章來源:機器之心
內容字數:14845字
內容摘要:
機器之心報道
編輯:張倩對 SSM 感興趣的研究者不妨讀一下這篇博士論文。
在大模型領域,Transformer 憑一己之力撐起了整個江山。但隨著模型規模的擴展和需要處理的序列不斷變長,Transformer 的局限性也逐漸凸顯,比如其自注意力機制的計算量會隨著上下文長度的增加呈平方級增長。為了克服這些缺陷,研究者們開發出了很多注意力機制的高效變體,但收效甚微。
最近,一項名為「Mamba」的研究似乎打破了這一局面,它在語言建模方面可以媲美甚至擊敗 Transformer。這都要歸功于作者提出的一種新架構 —— 選擇性狀態空間模型( selective state space model),該架構是 Mamba 論文作者 Albert Gu 此前主導研發的 S4 架構(Structured State Spaces for Sequence Modeling )的一個簡單泛化。
在 Mamba 論文發布后,很多研究者都對 SSM(state space model)、S4 等相關研究產生了好奇。其中,有位研究者表示自己要在飛機上把這些論文都讀一下。對此,Albert Gu 給出了更好的
原文鏈接:挑戰Transformer的Mamba是什么來頭?作者博士論文理清SSM進化路徑
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...