谷歌提出超越Transformer的新架構(gòu)Titans技術(shù)報(bào)告
我們提出了一個(gè)新的神經(jīng)長期記憶模塊,該模塊學(xué)會(huì)記憶歷史上下文,并幫助注意力把焦點(diǎn)放在當(dāng)前上下文,同時(shí)利用長記憶的信息。我們展示了這種神經(jīng)記憶在訓(xùn)練時(shí)具有快速可并行化的優(yōu)勢(shì),同時(shí)保持了快速的推理速度。
原標(biāo)題:谷歌提出超越Transformer的新架構(gòu)Titans技術(shù)報(bào)告
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):44253字
Titans: 突破長文本建模瓶頸的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)
本文介紹了一種名為Titans的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在解決現(xiàn)有Transformer模型在處理長文本時(shí)面臨的二次復(fù)雜度問題。Titans的核心創(chuàng)新在于引入了神經(jīng)長期記憶模塊(LMM),該模塊能夠高效地學(xué)習(xí)和記憶歷史上下文信息,從而突破長文本建模的瓶頸。
1. 記憶視角:短期記憶與長期記憶的融合
文章從記憶的角度重新審視了循環(huán)模型和注意力機(jī)制。注意力機(jī)制類似于短期記憶,能夠準(zhǔn)確捕捉當(dāng)前上下文窗口內(nèi)的依賴關(guān)系,但存在二次復(fù)雜度限制。而神經(jīng)長期記憶模塊則類似于長期記憶,能夠存儲(chǔ)和檢索歷史信息,克服了上下文長度的限制。
2. 神經(jīng)長期記憶模塊(LMM)的設(shè)計(jì)與訓(xùn)練
LMM的設(shè)計(jì)靈感來源于人類記憶機(jī)制,它會(huì)優(yōu)先記憶那些出乎意料的(即驚喜度高的)。LMM通過衡量輸入數(shù)據(jù)相對(duì)于歷史數(shù)據(jù)的梯度來評(píng)估驚喜度,并采用一種衰減機(jī)制來管理有限的記憶空間。這種衰減機(jī)制類似于現(xiàn)代循環(huán)模型中的遺忘機(jī)制,并可通過小批量梯度下降進(jìn)行高效并行化訓(xùn)練。
3. Titans架構(gòu):三種變體
基于LMM,文章提出了Titans的三種變體,分別將LMM集成到架構(gòu)中的不同位置:
- 記憶作為上下文 (MAC): LMM作為上下文信息,與當(dāng)前輸入一起被注意力機(jī)制處理。
- 門控記憶 (MAG): LMM與滑動(dòng)窗口注意力機(jī)制通過門控機(jī)制結(jié)合,實(shí)現(xiàn)短期記憶和長期記憶的協(xié)同工作。
- 記憶作為一層 (MAL): LMM作為神經(jīng)網(wǎng)絡(luò)的一層,在注意力機(jī)制之前對(duì)上下文進(jìn)行壓縮。
此外,文章還探討了僅使用LMM作為序列模型的可能性。
4. 實(shí)驗(yàn)結(jié)果:超越Transformer和現(xiàn)有線性循環(huán)模型
實(shí)驗(yàn)結(jié)果表明,Titans在語言建模、常識(shí)推理、大海撈針任務(wù)、時(shí)間序列預(yù)測(cè)和DNA建模等多個(gè)任務(wù)上均優(yōu)于Transformer模型和現(xiàn)有的線性循環(huán)模型,尤其是在長文本場(chǎng)景下表現(xiàn)突出。Titans能夠有效擴(kuò)展到超過2M的上下文窗口大小,并且在準(zhǔn)確性方面具有顯著優(yōu)勢(shì)。
5. 效率分析與消融實(shí)驗(yàn)
文章還對(duì)Titans的效率進(jìn)行了分析,并進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了LMM中每個(gè)組件(如深度記憶、動(dòng)量、權(quán)重衰減、持久記憶等)對(duì)性能的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明,LMM的設(shè)計(jì)中的每個(gè)組件都對(duì)性能有積極的貢獻(xiàn)。
6. 結(jié)論
Titans架構(gòu)通過巧妙地融合短期記憶和長期記憶,有效解決了長文本建模的難題。其高效的訓(xùn)練方法和在多個(gè)任務(wù)上的優(yōu)異性能,為未來長文本處理的研究提供了新的方向。
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)