谷歌提出超越Transformer的新架構Titans技術報告

我們提出了一個新的神經長期記憶模塊，該模塊學會記憶歷史上下文，并幫助注意力把焦點放在當前上下文，同時利用長記憶的信息。我們展示了這種神經記憶在訓練時具有快速可并行化的優勢，同時保持了快速的推理速度。

原標題：谷歌提出超越Transformer的新架構Titans技術報告
文章來源：人工智能學家
內容字數：44253字

Titans: 突破長文本建模瓶頸的全新神經網絡架構

本文介紹了一種名為Titans的新型神經網絡架構，旨在解決現有Transformer模型在處理長文本時面臨的二次復雜度問題。Titans的核心創新在于引入了神經長期記憶模塊（LMM），該模塊能夠高效地學習和記憶歷史上下文信息，從而突破長文本建模的瓶頸。

1. 記憶視角：短期記憶與長期記憶的融合

文章從記憶的角度重新審視了循環模型和注意力機制。注意力機制類似于短期記憶，能夠準確捕捉當前上下文窗口內的依賴關系，但存在二次復雜度限制。而神經長期記憶模塊則類似于長期記憶，能夠存儲和檢索歷史信息，克服了上下文長度的限制。

2. 神經長期記憶模塊(LMM)的設計與訓練

LMM的設計靈感來源于人類記憶機制，它會優先記憶那些出乎意料的（即驚喜度高的）。LMM通過衡量輸入數據相對于歷史數據的梯度來評估驚喜度，并采用一種衰減機制來管理有限的記憶空間。這種衰減機制類似于現代循環模型中的遺忘機制，并可通過小批量梯度下降進行高效并行化訓練。

3. Titans架構：三種變體

基于LMM，文章提出了Titans的三種變體，分別將LMM集成到架構中的不同位置：

記憶作為上下文 (MAC)： LMM作為上下文信息，與當前輸入一起被注意力機制處理。
門控記憶 (MAG)： LMM與滑動窗口注意力機制通過門控機制結合，實現短期記憶和長期記憶的協同工作。
記憶作為一層 (MAL)： LMM作為神經網絡的一層，在注意力機制之前對上下文進行壓縮。

此外，文章還探討了僅使用LMM作為序列模型的可能性。

4. 實驗結果：超越Transformer和現有線性循環模型

實驗結果表明，Titans在語言建模、常識推理、大海撈針任務、時間序列預測和DNA建模等多個任務上均優于Transformer模型和現有的線性循環模型，尤其是在長文本場景下表現突出。Titans能夠有效擴展到超過2M的上下文窗口大小，并且在準確性方面具有顯著優勢。

5. 效率分析與消融實驗

文章還對Titans的效率進行了分析，并進行了消融實驗，驗證了LMM中每個組件（如深度記憶、動量、權重衰減、持久記憶等）對性能的貢獻。實驗結果表明，LMM的設計中的每個組件都對性能有積極的貢獻。

6. 結論

Titans架構通過巧妙地融合短期記憶和長期記憶，有效解決了長文本建模的難題。其高效的訓練方法和在多個任務上的優異性能，為未來長文本處理的研究提供了新的方向。

聯系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

閱讀原文

# AIGC動態 # Titans架構 # 模型并行訓練 # 神經網絡架構搜索 # 稀疏注意力機制 # 高效Transformer替代方案

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

谷歌提出超越Transformer的新架構Titans技術報告

我們提出了一個新的神經長期記憶模塊，該模塊學會記憶歷史上下文，并幫助注意力把焦點放在當前上下文，同時利用長記憶的信息。我們展示了這種神經記憶在訓練時具有快速可并行化的優勢，同時保持了快速的推理速度。

Titans: 突破長文本建模瓶頸的全新神經網絡架構

1. 記憶視角：短期記憶與長期記憶的融合

2. 神經長期記憶模塊(LMM)的設計與訓練

3. Titans架構：三種變體

4. 實驗結果：超越Transformer和現有線性循環模型

5. 效率分析與消融實驗

6. 結論

聯系作者

無直接數據可用，AI怎么學會「干活」？微軟團隊揭秘AI從語言到行動的進化之路

幾十個測試后，發現海螺語音與 ElevenLabs 掰手腕的能力不是蓋的

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

谷歌提出超越Transformer的新架構Titans技術報告

Titans: 突破長文本建模瓶頸的全新神經網絡架構

1. 記憶視角：短期記憶與長期記憶的融合

2. 神經長期記憶模塊(LMM)的設計與訓練

3. Titans架構：三種變體

4. 實驗結果：超越Transformer和現有線性循環模型

5. 效率分析與消融實驗

6. 結論

聯系作者

無直接數據可用，AI怎么學會「干活」？微軟團隊揭秘AI從語言到行動的進化之路

幾十個測試后，發現海螺語音與 ElevenLabs 掰手腕的能力不是蓋的

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

無直接數據可用，AI怎么學會「干活」？微軟團隊揭秘AI從語言到行動的進化之路

幾十個測試后，發現海螺語音與 ElevenLabs 掰手腕的能力不是蓋的