AIGC動態歡迎閱讀
原標題:RNN效率媲美Transformer,谷歌新架構兩:同等規模強于Mamba
關鍵字:模型,報告,研究者,序列,基線
文章來源:機器之心
內容字數:8869字
內容摘要:
機器之心報道
機器之心編輯部去年 12 月,新架構 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 發起了挑戰。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出為 AI 圈提供了新的選擇。這一次,谷歌 DeepMind 在基礎模型方面又有了新動作。
我們知道,循環神經網絡(RNN)在深度學習和自然語言處理研究的早期發揮了核心作用,并在許多應用中取得了實功,包括谷歌第一個端到端機器翻譯系統。不過近年來,深度學習和 NLP 都以 Transformer 架構為主,該架構融合了多層感知器(MLP)和多頭注意力(MHA)。
Transformer 已經在實踐中實現了比 RNN 更好的性能,并且在利用現代硬件方面也非常高效。基于 Transformer 的大語言模型在從網絡收集的海量數據集上進行訓練,取得了顯著的成功。
縱然取得了很大的成功,但 Transformer 架構仍有不足之處,比如由于全局注意力的二次復雜性,Transformer 很難有效地擴展到長序列。此外,鍵值(KV)緩存隨序列長度線性增長,導致 Transformer 在推理過程中變慢。
原文鏈接:RNN效率媲美Transformer,谷歌新架構兩:同等規模強于Mamba
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...