Titans

Titans – 谷歌推出的新型神經記憶架構

Titans是什么

Titans是谷歌推出的一種創新型神經網絡架構，旨在解決Transformer在處理長序列數據時面臨的記憶限制問題。它通過引入神經長期記憶模塊，模擬人腦的記憶機制，特別增強了對突發的記憶能力。Titans架構包括三種不同的變體：MAC（記憶作為上下文）、MAG（記憶作為門）和MAL（記憶作為層），各自以獨特的方式整合記憶模塊。實驗結果表明，Titans在語言建模、常識推理、時間序列預測等任務中表現優異，尤其在處理超過200萬上下文窗口的長序列任務時，展現出卓越的性能，并具備出色的并行計算能力，從而提升了訓練效率。

Titans

Titans的主要功能

長序列數據處理：Titans能夠高效處理超過200萬上下文窗口的長序列數據，并在長序列任務中保持高準確性。例如，在“大海撈針”任務中，即使序列長度從2k增加到16k，準確率依舊保持在90%左右。
記憶管理：基于神經長期記憶模塊，Titans能夠記住較早的信息，這對于需要長程依賴的任務（如語言建模和常識推理）至關重要。它結合了注意力機制，有效處理短期記憶，聚焦于當前上下文中的直接依賴關系。
任務多樣性：在多種任務中，Titans展現出卓越的表現，包括語言建模、常識推理、時間序列預測、基因組建模等，顯示出廣泛的適用性。
訓練效率：Titans的神經長期記憶模塊支持并行計算，顯著提升了訓練效率，使其能夠更快速地處理大規模數據。在推理階段，它能夠快速檢索和利用長期記憶，增強模型的響應速度。

Titans的技術原理

神經長期記憶模塊（Neural Long-Term Memory Module）
- 記憶編碼：通過在線元模型（Online meta-model），學習在測試時如何有效地記住和遺忘特定數據。模型將過往信息編碼進神經網絡的參數中，以避免記住無用的訓練數據細節。
- 驚喜度量：借鑒人腦的記憶原理，基于輸入的梯度來測量輸入的“驚訝度”。梯度越大，說明輸入越出人意料，越容易被記住。
- 動量機制：引入動量機制，將短期內的驚喜累積成長期記憶，使模型更有效地處理序列中的信息流。
- 遺忘機制：通過遺忘機制，模型能夠擦除不再需要的舊記憶，從而防止記憶溢出，有效管理有限的記憶容量。
架構設計
- MAC（記憶作為上下文）：將長期記憶與持久記憶作為當前輸入的上下文，一并輸入給注意力機制，使模型能夠同時考慮歷史信息和當前上下文。
- MAG（記憶作為門）：在記憶模塊和滑動窗口注意力的兩個分支上進行門控融合，結合長期記憶與短期記憶的優勢，動態調整信息流。
- MAL（記憶作為層）：將記憶模塊作為的一層，壓縮歷史信息后再輸入給注意力機制，基于層次化的信息處理，提升模型的表達能力。
并行化訓練：通過矩陣運算（matmuls）進行優化，支持并行計算，顯著提高訓練效率。