谷歌新架構一戰成名，打破Transformer記憶瓶頸，姚班校友鐘沛林新作

AIGC動態6個月前發布量子位

327 0 0

意料之外的“驚喜”更容易被AI記住

原標題：谷歌新架構一戰成名，打破Transformer記憶瓶頸，姚班校友鐘沛林新作
文章來源：量子位
內容字數：3197字

谷歌Titan架構：挑戰Transformer的新型深度學習架構

本文總結了谷歌研究團隊提出的新型深度學習架構Titan，該架構旨在挑戰Transformer的局限性，尤其是在處理長文本和長期記憶方面。文章重點介紹了Titan的核心創新點、架構變體以及實驗結果。

1. 背景：Transformer的局限性與Titan的動機

Transformer的注意力機制雖然強大，但其短期記憶特性限制了其處理超長序列的能力。現有模型如LSTM也存在容量有限或計算開銷過大的問題。Titan團隊受神經心理學啟發，旨在構建一個能夠有效存儲和檢索長期信息的深度學習模型。

2. Titan的核心創新：神經長期記憶模塊(LMM)

Titan的核心是其神經長期記憶模塊（LMM）。該模塊模仿人腦記憶機制，優先記憶“驚喜”程度高的（由輸入的梯度衡量）。通過引入動量機制累積短期驚喜形成長期記憶，并通過遺忘機制防止記憶溢出。LMM由多層MLP組成，能夠存儲深層次的數據抽象，比傳統的矩陣記憶更強大。這種在線元學習范式使得模型能夠根據新數據調整自身，提升泛化能力，并支持并行計算。

3. Titan的架構變體

為了將LMM融入深度學習架構，Titan提出了三種變體：

MAC (Memory As Context): 將長期記憶和持久記憶作為當前輸入的上下文，一同輸入到注意力機制。
MAG (Memory As Gate): 在記憶模塊和滑動窗口注意力機制兩個分支上進行門控融合。
MAL (Memory As Layer): 將記憶模塊作為的一層，壓縮歷史信息后再輸入到注意力機制。

實驗表明，每種方法都有各自的優缺點。

4. 實驗結果與性能

Titan在語言建模、常識推理、時間序列預測等任務上全面超越了Transformer和Mamba等架構的SOTA模型。即使僅使用LMM，也在多個任務上擊敗了基線模型，證明了其學習能力。在長文本“大海撈針”測試中，Titan在序列長度從2k增加到16k的情況下，準確率仍保持在90%左右。在需要對分布在極長文檔中的事實進行推理的任務中，Titan的表現超過了GPT-4、Mamba以及Llama3.1 + RAG系統。在時間序列預測和DNA序列建模等特定任務中，Titan也取得了不錯的表現。

5. 團隊背景與未來展望

該研究由來自Google Research NYC算法和優化團隊的三位作者完成，一作為康奈爾大學實習生Ali Behrouz，團隊計劃很快公開用于訓練和評估模型的代碼。

總而言之，Titan架構通過引入創新的神經長期記憶模塊，有效地解決了Transformer在處理長文本和長期依賴方面的局限性，并在多個任務上取得了顯著的性能提升。這項研究為深度學習架構的發展提供了新的方向。