我們提出了一個新的神經長期記憶模塊,該模塊學會記憶歷史上下文,并幫助注意力把焦點放在當前上下文,同時利用長記憶的信息。我們展示了這種神經記憶在訓練時具有快速可并行化的優勢,同時保持了快速的推理速度。
原標題:谷歌提出超越Transformer的新架構Titans技術報告
文章來源:人工智能學家
內容字數:44253字
Titans: 突破長文本建模瓶頸的全新神經網絡架構
本文介紹了一種名為Titans的新型神經網絡架構,旨在解決現有Transformer模型在處理長文本時面臨的二次復雜度問題。Titans的核心創新在于引入了神經長期記憶模塊(LMM),該模塊能夠高效地學習和記憶歷史上下文信息,從而突破長文本建模的瓶頸。
1. 記憶視角:短期記憶與長期記憶的融合
文章從記憶的角度重新審視了循環模型和注意力機制。注意力機制類似于短期記憶,能夠準確捕捉當前上下文窗口內的依賴關系,但存在二次復雜度限制。而神經長期記憶模塊則類似于長期記憶,能夠存儲和檢索歷史信息,克服了上下文長度的限制。
2. 神經長期記憶模塊(LMM)的設計與訓練
LMM的設計靈感來源于人類記憶機制,它會優先記憶那些出乎意料的(即驚喜度高的)。LMM通過衡量輸入數據相對于歷史數據的梯度來評估驚喜度,并采用一種衰減機制來管理有限的記憶空間。這種衰減機制類似于現代循環模型中的遺忘機制,并可通過小批量梯度下降進行高效并行化訓練。
3. Titans架構:三種變體
基于LMM,文章提出了Titans的三種變體,分別將LMM集成到架構中的不同位置:
- 記憶作為上下文 (MAC): LMM作為上下文信息,與當前輸入一起被注意力機制處理。
- 門控記憶 (MAG): LMM與滑動窗口注意力機制通過門控機制結合,實現短期記憶和長期記憶的協同工作。
- 記憶作為一層 (MAL): LMM作為神經網絡的一層,在注意力機制之前對上下文進行壓縮。
此外,文章還探討了僅使用LMM作為序列模型的可能性。
4. 實驗結果:超越Transformer和現有線性循環模型
實驗結果表明,Titans在語言建模、常識推理、大海撈針任務、時間序列預測和DNA建模等多個任務上均優于Transformer模型和現有的線性循環模型,尤其是在長文本場景下表現突出。Titans能夠有效擴展到超過2M的上下文窗口大小,并且在準確性方面具有顯著優勢。
5. 效率分析與消融實驗
文章還對Titans的效率進行了分析,并進行了消融實驗,驗證了LMM中每個組件(如深度記憶、動量、權重衰減、持久記憶等)對性能的貢獻。實驗結果表明,LMM的設計中的每個組件都對性能有積極的貢獻。
6. 結論
Titans架構通過巧妙地融合短期記憶和長期記憶,有效解決了長文本建模的難題。其高效的訓練方法和在多個任務上的優異性能,為未來長文本處理的研究提供了新的方向。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構