AIGC動態歡迎閱讀
原標題:Mamba可以替代Transformer,但它們也能組合起來使用
關鍵字:序列,報告,上下文,狀態,注意力
文章來源:機器之心
內容字數:8264字
內容摘要:
機器之心報道
編輯:Panda W1+1>2。Transformer 很厲害,但并不完美,尤其是在處理長序列方面。而狀態空間模型(SSM)則在長序列上的表現相當不俗。早在去年就有研究者提出可使用 SSM 替代 Transformer,參見文章《預訓練無需注意力,擴展到4096個token不成問題,與BERT相當》,前些天基于 SSM 方法的 Mamba 更是異軍突起,推理吞吐量達到了 Transformer 的五倍之多,參閱《五倍吞吐量,性能全面包圍Transformer:新架構Mamba引爆AI圈》。
但實際上,SSM 和 Transformer 并不是非此即彼的兩種架構,它們完全可以組合起來!
近日公布的一篇 NeurIPS 2023 論文《Block-State Transformers》就采用了這種做法,其不僅能輕松支持 65k token 長度的超長輸入,而且計算效率還非常高,速度相比使用循環單元的 Transformer 足可提升十倍之多!這篇論文也得到了 Mamba 作者 Tri Dao 的點贊,他表示:「SSM 和Transformer 似乎可以互補。」但在我們介紹這種
原文鏈接:Mamba可以替代Transformer,但它們也能組合起來使用
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...