AIGC動態歡迎閱讀
原標題:誰能撼動Transformer統治地位?Mamba作者談LLM未來架構
關鍵字:模型,狀態,注意力,架構,機制
文章來源:機器之心
內容字數:16785字
內容摘要:
機器之心編譯
機器之心編輯部自 2017 年被提出以來,Transformer 已成為 AI 大模型的主流架構,未來這種情況是一直持續,還是會有新的研究出現,我們不妨先聽聽身處 AI 圈的研究者是怎么想的。在大模型領域,一直穩站 C 位的 Transformer 最近似乎有被超越的趨勢。
這個挑戰者就是一項名為「Mamba」的研究,其在語言、音頻和基因組學等多種模態中都達到了 SOTA 性能。在語言建模方面,無論是預訓練還是下游評估,Mamba-3B 模型都優于同等規模的 Transformer 模型,并能與兩倍于其規模的 Transformer 模型相媲美。論文一經發表,引起了不小的轟動。驚嘆之余,大家發現論文作者只有兩位,一位是卡內基梅隆大學機器學習系助理教授 Albert Gu,另一位是 Together.AI 首席科學家、普林斯頓大學計算機科學助理教授(即將上任)Tri Dao。
這項研究的一個重要創新是引入了一個名為「選擇性 SSM( selective state space model)」的架構,相比于 Transformer 中的自注意力機制的計算量會隨著上下文長度的增
原文鏈接:誰能撼動Transformer統治地位?Mamba作者談LLM未來架構
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...