AIGC動態歡迎閱讀
原標題:多虧Transformer,Mamba更強了!僅用1%計算量達新SOTA
關鍵字:模型,序列,注意力,架構,矩陣
文章來源:量子位
內容字數:0字
內容摘要:
明敏 發自 凹非寺量子位 | 公眾號 QbitAIAttention is all you need.
至少在矩陣這兒是。
Mamba架構最新進展:僅需1%計算量,新模型性能達SOTA。
能做到這一點,還多虧了Transformer。
通過將Transformer模型中的知識有效遷移到Mamba等替代架構中,模型能在保持較低計算成本的同時,性能更好。
這就是由Mamba主創之一Albert Gu領銜的最新成果。
值得一提的是,這種方法還適用于Mamba以外的非Transformer架構。
從Transformer到SSMsTransformer由于依賴二次自注意力機制,所需計算量很大。
二次自注意力機制能讓模型在處理序列數據時有效捕捉序列內部的長距離依賴關系,但是由于二次時間復雜度(如果輸入規模翻倍,模型計算所需時間增加4倍),導致處理長序列的計算成本很高。
為了解決這個問題,學界提出了很多新架構,比如Mamba、RWKV等,它們的微調和推理成本更低。
考慮到Transformer模型預訓練已經投入了大量計算資源,研究人員想到,為什么不能在此基礎上進行提升?
所以在本項研究中,他們提出
原文鏈接:多虧Transformer,Mamba更強了!僅用1%計算量達新SOTA
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...