DeepMind攜Mamba華人作者推Transformer之作!性能暴漲媲美Llama 2,推理能效大幅碾壓
AIGC動態(tài)歡迎閱讀
原標題:DeepMind攜Mamba華人作者推Transformer之作!性能暴漲媲美Llama 2,推理能效大幅碾壓
關鍵字:模型,線性,門控,序列,大小
文章來源:新智元
內容字數(shù):10158字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】線性RNN贏了?近日,谷歌DeepMind一口氣推出兩大新架構,在d基準測試中超越了Transformer。新架構不僅保證了高效的訓練和推理速度,并且成功擴展到了14B。Transformer又又又被挑戰(zhàn)了!
這次的挑戰(zhàn)者來自大名鼎鼎的谷歌DeepMind,并且一口氣推出了兩種新架構,——Hawk和Griffin。
論文地址:https://arxiv.org/abs/2402.19427
這種將門控線性RNN與局部注意力混合在一起的模型新架構的表現(xiàn)相當亮眼。
首先,同為線性RNN架構的Griffin,憑借著1/2的訓練數(shù)據(jù),在所有評測中全面優(yōu)于之前大火的Mamba。
更重要的是,Griffin將模型成功擴展到了14B,做到了Mamba想做卻沒能做的事。
其次,面對基于Transformer架構的模型,Griffin則憑借著1/6的訓練數(shù)據(jù),打平甚至超越了同等參數(shù)量的Llama 2!
同時,模型能夠利用很長的上下文來改進其預測,表明線性RNN的外推能力可以遠遠超出它們訓練的序列長度。
此外,團隊還證明了這種組合構架保留了Transformer在合
原文鏈接:DeepMind攜Mamba華人作者推Transformer之作!性能暴漲媲美Llama 2,推理能效大幅碾壓
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。