RNN效率媲美Transformer，谷歌新架構兩：同等規模強于Mamba

AIGC動態1年前 (2024)發布機器之心

RNN效率媲美Transformer，谷歌新架構兩連發：同等規模強于Mamba

AIGC動態歡迎閱讀

原標題：RNN效率媲美Transformer，谷歌新架構兩：同等規模強于Mamba
關鍵字：模型,報告,研究者,序列,基線
文章來源：機器之心
內容字數：8869字

內容摘要：

機器之心報道
機器之心編輯部去年 12 月，新架構 Mamba 引爆了 AI 圈，向屹立不倒的 Transformer 發起了挑戰。如今，谷歌 DeepMind「Hawk 」和「Griffin 」的推出為 AI 圈提供了新的選擇。這一次，谷歌 DeepMind 在基礎模型方面又有了新動作。
我們知道，循環神經網絡（RNN）在深度學習和自然語言處理研究的早期發揮了核心作用，并在許多應用中取得了實功，包括谷歌第一個端到端機器翻譯系統。不過近年來，深度學習和 NLP 都以 Transformer 架構為主，該架構融合了多層感知器（MLP）和多頭注意力（MHA）。
Transformer 已經在實踐中實現了比 RNN 更好的性能，并且在利用現代硬件方面也非常高效。基于 Transformer 的大語言模型在從網絡收集的海量數據集上進行訓練，取得了顯著的成功。
縱然取得了很大的成功，但 Transformer 架構仍有不足之處，比如由于全局注意力的二次復雜性，Transformer 很難有效地擴展到長序列。此外，鍵值（KV）緩存隨序列長度線性增長，導致 Transformer 在推理過程中變慢。

原文鏈接：RNN效率媲美Transformer，谷歌新架構兩：同等規模強于Mamba