Transformer繼任者「Titans」來了，上下文記憶瓶頸被打破

長江后浪推前浪。

原標題：Transformer繼任者「Titans」來了，上下文記憶瓶頸被打破
文章來源：Founder Park
內(nèi)容字數(shù)：10921字

谷歌推出Titans架構(gòu)：Transformer的繼任者？

谷歌在Transformer架構(gòu)發(fā)布八年后，推出了全新的Titans架構(gòu)，旨在解決LLM長上下文處理的難題。該架構(gòu)的核心在于其創(chuàng)新的長期神經(jīng)記憶模塊，允許模型在測試時學習和記憶信息，從而將上下文窗口擴展到200萬tokens。

Titans架構(gòu)的核心：長期神經(jīng)記憶模塊

1. **挑戰(zhàn)與思路:** 傳統(tǒng)的注意力機制雖然能精確建模依賴關(guān)系，但計算成本高，限制了上下文窗口長度。Titans通過引入長期神經(jīng)記憶模塊來解決這個問題，該模塊能夠?qū)W習如何在測試時記憶或忘記信息，避免過擬合并提升泛化能力。

2. **學習過程與意外指標:** 模型通過在線學習的方式，學習記憶函數(shù)。它利用“意外指標”來衡量輸入數(shù)據(jù)與過去數(shù)據(jù)的偏差，從而決定哪些信息需要記憶。該指標包含過去意外和瞬時意外兩個方面，基于一個損失函數(shù)進行學習，目標是實現(xiàn)聯(lián)想記憶（鍵值對存儲）。

3. **遺忘機制:** 為了管理有限的記憶容量，Titans采用了自適應遺忘機制，允許模型忘記不再需要的信息。

4. **記憶架構(gòu)與檢索:** 長期記憶模塊采用多層MLP架構(gòu)，檢索信息則通過簡單的線性層投影和前向傳遞實現(xiàn)。

5. **并行化訓練:** 為了高效訓練，Titans利用了塊式梯度下降、張量化以及參數(shù)作為塊函數(shù)的簡化方法，充分利用硬件加速器。

Titans架構(gòu)的三個變體

1. **Memory as a Context (MAC):** 將記憶作為當前信息的上下文，結(jié)合注意力機制，選擇性地利用歷史信息。

2. **Memory as a Gate (MAG):** 使用滑動窗口注意力作為短期記憶，神經(jīng)記憶模塊作為衰減記憶，兩者協(xié)同工作。

3. **Memory as a Layer (MAL):** 將循環(huán)模型和具有注意力機制的深度神經(jīng)網(wǎng)絡進行堆疊。

實驗結(jié)果與結(jié)論

在語言建模、常識推理、基因組學和時序預測等任務中，Titans架構(gòu)均表現(xiàn)優(yōu)于Transformer和其他的現(xiàn)代線性循環(huán)模型，尤其在“大海撈針”任務中，其在超過200萬tokens的上下文窗口下取得了更高的準確率。實驗還表明，更深的記憶模塊和更大的參數(shù)量可以提升模型性能。盡管訓練速度略慢于部分基線模型，但Titans (MAL) 的訓練速度仍然優(yōu)于其他一些基線模型和神經(jīng)記憶模塊。

總而言之，Titans 架構(gòu)提出了一種新穎的將記憶機制融入深度學習架構(gòu)的方法，為處理超長上下文和提升LLM性能提供了新的思路。

聯(lián)系作者

文章來源：Founder Park
作者微信：
作者簡介：來自極客公園，專注與科技創(chuàng)業(yè)者聊「真問題」。

閱讀原文

# AIGC動態(tài)# Titans模型 # Transformer繼任者 # 上下文記憶瓶頸 # 大規(guī)模語言模型 # 長程依賴建模

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Transformer繼任者「Titans」來了，上下文記憶瓶頸被打破

長江后浪推前浪。

谷歌推出Titans架構(gòu)：Transformer的繼任者？

Titans架構(gòu)的核心：長期神經(jīng)記憶模塊

Titans架構(gòu)的三個變體

實驗結(jié)果與結(jié)論

聯(lián)系作者

詳解DeepSeek-V3：大模型訓練加速神器，MoE煥發(fā)新生丨智源深度

MiniMax-01技術(shù)報告解讀以及與DeepSeek-V3對比

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？