DeepMind攜Mamba華人作者推Transformer之作！性能暴漲媲美Llama 2，推理能效大幅碾壓

AIGC動態2年前 (2024)發布新智元

DeepMind攜Mamba華人作者推Transformer革命之作！性能暴漲媲美Llama 2，推理能效大幅碾壓

AIGC動態歡迎閱讀

原標題：DeepMind攜Mamba華人作者推Transformer之作！性能暴漲媲美Llama 2，推理能效大幅碾壓
關鍵字：模型,線性,門控,序列,大小
文章來源：新智元
內容字數：10158字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】線性RNN贏了？近日，谷歌DeepMind一口氣推出兩大新架構，在d基準測試中超越了Transformer。新架構不僅保證了高效的訓練和推理速度，并且成功擴展到了14B。Transformer又又又被挑戰了！
這次的挑戰者來自大名鼎鼎的谷歌DeepMind，并且一口氣推出了兩種新架構，——Hawk和Griffin。
論文地址：https://arxiv.org/abs/2402.19427
這種將門控線性RNN與局部注意力混合在一起的模型新架構的表現相當亮眼。
首先，同為線性RNN架構的Griffin，憑借著1/2的訓練數據，在所有評測中全面優于之前大火的Mamba。
更重要的是，Griffin將模型成功擴展到了14B，做到了Mamba想做卻沒能做的事。
其次，面對基于Transformer架構的模型，Griffin則憑借著1/6的訓練數據，打平甚至超越了同等參數量的Llama 2！
同時，模型能夠利用很長的上下文來改進其預測，表明線性RNN的外推能力可以遠遠超出它們訓練的序列長度。
此外，團隊還證明了這種組合構架保留了Transformer在合

原文鏈接：DeepMind攜Mamba華人作者推Transformer之作！性能暴漲媲美Llama 2，推理能效大幅碾壓