谷歌推出Transformer架構(gòu)的繼任者Titans：訓(xùn)練代碼也會(huì)公開(kāi)

AIGC動(dòng)態(tài)7個(gè)月前發(fā)布人工智能學(xué)家

原標(biāo)題：谷歌推出Transformer架構(gòu)的繼任者Titans：訓(xùn)練代碼也會(huì)公開(kāi)
文章來(lái)源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：9852字

谷歌發(fā)布Transformer繼任者Titans：神經(jīng)長(zhǎng)期記憶模塊賦能AI

本文概述了谷歌最新發(fā)布的Transformer架構(gòu)繼任者——Titans，以及其核心創(chuàng)新、架構(gòu)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果。

1. Titans的核心創(chuàng)新：神經(jīng)長(zhǎng)期記憶模塊

Titans的核心創(chuàng)新在于提出了一種新型的神經(jīng)長(zhǎng)期記憶模塊，該模塊能夠在測(cè)試時(shí)學(xué)習(xí)記憶。它通過(guò)將訓(xùn)練過(guò)程視為在線(xiàn)學(xué)習(xí)問(wèn)題，并根據(jù)輸入的“驚訝程度”（通過(guò)計(jì)算神經(jīng)網(wǎng)絡(luò)相對(duì)于輸入的梯度來(lái)衡量）來(lái)更新記憶。為了解決記憶容量有限的問(wèn)題，該模塊還引入了自適應(yīng)的遺忘機(jī)制，并通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)深度記憶模塊（多層感知機(jī)）比線(xiàn)性模型更有效。記憶的檢索則通過(guò)簡(jiǎn)單的正向傳遞實(shí)現(xiàn)。

2. Titans架構(gòu)設(shè)計(jì)：三個(gè)分支協(xié)同工作

Titans架構(gòu)包含三個(gè)分支：核心分支（Core）使用注意力機(jī)制處理數(shù)據(jù)；長(zhǎng)期記憶分支（Long-term Memory）使用神經(jīng)長(zhǎng)期記憶模塊存儲(chǔ)和回憶歷史信息；持久記憶分支（Persistent Memory）使用可學(xué)習(xí)但不依賴(lài)于數(shù)據(jù)的參數(shù)編碼任務(wù)相關(guān)知識(shí)。論文提出了三種不同的Titans變體：上下文記憶（MAC）、門(mén)控記憶（MAG）和層式記憶（MAL），分別探索了不同記憶融合方式的有效性。

3. 實(shí)驗(yàn)結(jié)果：超越Transformer和循環(huán)模型

在語(yǔ)言建模、常識(shí)推理、長(zhǎng)距離依賴(lài)、時(shí)間序列預(yù)測(cè)和DNA建模等任務(wù)上，Titans架構(gòu)在所有基準(zhǔn)測(cè)試中都優(yōu)于現(xiàn)代循環(huán)模型及其混合變體，并在相同上下文窗口大小下優(yōu)于Transformer模型。尤其在長(zhǎng)上下文任務(wù)中，Titans展現(xiàn)出更具競(jìng)爭(zhēng)力的性能，并能有效擴(kuò)展到大于2M的上下文窗口大小。消融研究驗(yàn)證了架構(gòu)中每個(gè)組件的積極貢獻(xiàn)，其中權(quán)重衰減、動(dòng)量、卷積和持久記憶的貢獻(xiàn)最大。

4. 代碼開(kāi)源與未來(lái)展望

Titans已使用PyTorch和JAX實(shí)現(xiàn)，谷歌計(jì)劃很快公開(kāi)用于訓(xùn)練和評(píng)估模型的代碼。這項(xiàng)研究為深度學(xué)習(xí)模型的長(zhǎng)期記憶機(jī)制提供了新的思路，有望進(jìn)一步提升AI模型在處理長(zhǎng)序列數(shù)據(jù)和復(fù)雜任務(wù)方面的能力。

5. 補(bǔ)充：歐米伽研究所“未來(lái)知識(shí)庫(kù)”

文章最后提及了歐米伽研究所的“未來(lái)知識(shí)庫(kù)”，這是一個(gè)收集人工智能、腦科學(xué)等領(lǐng)域前沿進(jìn)展與未來(lái)趨勢(shì)的在線(xiàn)知識(shí)庫(kù)平臺(tái)，提供大量前沿科技趨勢(shì)報(bào)告，例如美國(guó)眾議院人工智能報(bào)告、DeepMind AI 加速科學(xué)創(chuàng)新報(bào)告等。這部分內(nèi)容旨在引導(dǎo)讀者進(jìn)一步了解相關(guān)領(lǐng)域的最新研究進(jìn)展。