谷歌推出Transformer架構(gòu)的繼任者Titans:訓(xùn)練代碼也會(huì)公開(kāi)
原標(biāo)題:谷歌推出Transformer架構(gòu)的繼任者Titans:訓(xùn)練代碼也會(huì)公開(kāi)
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):9852字
谷歌發(fā)布Transformer繼任者Titans:神經(jīng)長(zhǎng)期記憶模塊賦能AI
本文概述了谷歌最新發(fā)布的Transformer架構(gòu)繼任者——Titans,以及其核心創(chuàng)新、架構(gòu)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果。
1. Titans的核心創(chuàng)新:神經(jīng)長(zhǎng)期記憶模塊
Titans的核心創(chuàng)新在于提出了一種新型的神經(jīng)長(zhǎng)期記憶模塊,該模塊能夠在測(cè)試時(shí)學(xué)習(xí)記憶。它通過(guò)將訓(xùn)練過(guò)程視為在線(xiàn)學(xué)習(xí)問(wèn)題,并根據(jù)輸入的“驚訝程度”(通過(guò)計(jì)算神經(jīng)網(wǎng)絡(luò)相對(duì)于輸入的梯度來(lái)衡量)來(lái)更新記憶。為了解決記憶容量有限的問(wèn)題,該模塊還引入了自適應(yīng)的遺忘機(jī)制,并通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)深度記憶模塊(多層感知機(jī))比線(xiàn)性模型更有效。記憶的檢索則通過(guò)簡(jiǎn)單的正向傳遞實(shí)現(xiàn)。
2. Titans架構(gòu)設(shè)計(jì):三個(gè)分支協(xié)同工作
Titans架構(gòu)包含三個(gè)分支:核心分支(Core)使用注意力機(jī)制處理數(shù)據(jù);長(zhǎng)期記憶分支(Long-term Memory)使用神經(jīng)長(zhǎng)期記憶模塊存儲(chǔ)和回憶歷史信息;持久記憶分支(Persistent Memory)使用可學(xué)習(xí)但不依賴(lài)于數(shù)據(jù)的參數(shù)編碼任務(wù)相關(guān)知識(shí)。論文提出了三種不同的Titans變體:上下文記憶(MAC)、門(mén)控記憶(MAG)和層式記憶(MAL),分別探索了不同記憶融合方式的有效性。
3. 實(shí)驗(yàn)結(jié)果:超越Transformer和循環(huán)模型
在語(yǔ)言建模、常識(shí)推理、長(zhǎng)距離依賴(lài)、時(shí)間序列預(yù)測(cè)和DNA建模等任務(wù)上,Titans架構(gòu)在所有基準(zhǔn)測(cè)試中都優(yōu)于現(xiàn)代循環(huán)模型及其混合變體,并在相同上下文窗口大小下優(yōu)于Transformer模型。尤其在長(zhǎng)上下文任務(wù)中,Titans展現(xiàn)出更具競(jìng)爭(zhēng)力的性能,并能有效擴(kuò)展到大于2M的上下文窗口大小。消融研究驗(yàn)證了架構(gòu)中每個(gè)組件的積極貢獻(xiàn),其中權(quán)重衰減、動(dòng)量、卷積和持久記憶的貢獻(xiàn)最大。
4. 代碼開(kāi)源與未來(lái)展望
Titans已使用PyTorch和JAX實(shí)現(xiàn),谷歌計(jì)劃很快公開(kāi)用于訓(xùn)練和評(píng)估模型的代碼。這項(xiàng)研究為深度學(xué)習(xí)模型的長(zhǎng)期記憶機(jī)制提供了新的思路,有望進(jìn)一步提升AI模型在處理長(zhǎng)序列數(shù)據(jù)和復(fù)雜任務(wù)方面的能力。
5. 補(bǔ)充:歐米伽研究所“未來(lái)知識(shí)庫(kù)”
文章最后提及了歐米伽研究所的“未來(lái)知識(shí)庫(kù)”,這是一個(gè)收集人工智能、腦科學(xué)等領(lǐng)域前沿進(jìn)展與未來(lái)趨勢(shì)的在線(xiàn)知識(shí)庫(kù)平臺(tái),提供大量前沿科技趨勢(shì)報(bào)告,例如美國(guó)眾議院人工智能報(bào)告、DeepMind AI 加速科學(xué)創(chuàng)新報(bào)告等。 這部分內(nèi)容旨在引導(dǎo)讀者進(jìn)一步了解相關(guān)領(lǐng)域的最新研究進(jìn)展。
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)