<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        谷歌提出超越Transformer的新架構(gòu)Titans技術(shù)報(bào)告

        我們提出了一個(gè)新的神經(jīng)長期記憶模塊,該模塊學(xué)會(huì)記憶歷史上下文,并幫助注意力把焦點(diǎn)放在當(dāng)前上下文,同時(shí)利用長記憶的信息。我們展示了這種神經(jīng)記憶在訓(xùn)練時(shí)具有快速可并行化的優(yōu)勢(shì),同時(shí)保持了快速的推理速度。

        谷歌提出超越Transformer的新架構(gòu)Titans技術(shù)報(bào)告

        原標(biāo)題:谷歌提出超越Transformer的新架構(gòu)Titans技術(shù)報(bào)告
        文章來源:人工智能學(xué)家
        內(nèi)容字?jǐn)?shù):44253字

        Titans: 突破長文本建模瓶頸的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)

        本文介紹了一種名為Titans的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在解決現(xiàn)有Transformer模型在處理長文本時(shí)面臨的二次復(fù)雜度問題。Titans的核心創(chuàng)新在于引入了神經(jīng)長期記憶模塊(LMM),該模塊能夠高效地學(xué)習(xí)和記憶歷史上下文信息,從而突破長文本建模的瓶頸。

        1. 記憶視角:短期記憶與長期記憶的融合

        文章從記憶的角度重新審視了循環(huán)模型和注意力機(jī)制。注意力機(jī)制類似于短期記憶,能夠準(zhǔn)確捕捉當(dāng)前上下文窗口內(nèi)的依賴關(guān)系,但存在二次復(fù)雜度限制。而神經(jīng)長期記憶模塊則類似于長期記憶,能夠存儲(chǔ)和檢索歷史信息,克服了上下文長度的限制。

        2. 神經(jīng)長期記憶模塊(LMM)的設(shè)計(jì)與訓(xùn)練

        LMM的設(shè)計(jì)靈感來源于人類記憶機(jī)制,它會(huì)優(yōu)先記憶那些出乎意料的(即驚喜度高的)。LMM通過衡量輸入數(shù)據(jù)相對(duì)于歷史數(shù)據(jù)的梯度來評(píng)估驚喜度,并采用一種衰減機(jī)制來管理有限的記憶空間。這種衰減機(jī)制類似于現(xiàn)代循環(huán)模型中的遺忘機(jī)制,并可通過小批量梯度下降進(jìn)行高效并行化訓(xùn)練。

        3. Titans架構(gòu):三種變體

        基于LMM,文章提出了Titans的三種變體,分別將LMM集成到架構(gòu)中的不同位置:

        1. 記憶作為上下文 (MAC): LMM作為上下文信息,與當(dāng)前輸入一起被注意力機(jī)制處理。
        2. 門控記憶 (MAG): LMM與滑動(dòng)窗口注意力機(jī)制通過門控機(jī)制結(jié)合,實(shí)現(xiàn)短期記憶和長期記憶的協(xié)同工作。
        3. 記憶作為一層 (MAL): LMM作為神經(jīng)網(wǎng)絡(luò)的一層,在注意力機(jī)制之前對(duì)上下文進(jìn)行壓縮。

        此外,文章還探討了僅使用LMM作為序列模型的可能性。

        4. 實(shí)驗(yàn)結(jié)果:超越Transformer和現(xiàn)有線性循環(huán)模型

        實(shí)驗(yàn)結(jié)果表明,Titans在語言建模、常識(shí)推理、大海撈針任務(wù)、時(shí)間序列預(yù)測(cè)和DNA建模等多個(gè)任務(wù)上均優(yōu)于Transformer模型和現(xiàn)有的線性循環(huán)模型,尤其是在長文本場(chǎng)景下表現(xiàn)突出。Titans能夠有效擴(kuò)展到超過2M的上下文窗口大小,并且在準(zhǔn)確性方面具有顯著優(yōu)勢(shì)。

        5. 效率分析與消融實(shí)驗(yàn)

        文章還對(duì)Titans的效率進(jìn)行了分析,并進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了LMM中每個(gè)組件(如深度記憶、動(dòng)量、權(quán)重衰減、持久記憶等)對(duì)性能的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明,LMM的設(shè)計(jì)中的每個(gè)組件都對(duì)性能有積極的貢獻(xiàn)。

        6. 結(jié)論

        Titans架構(gòu)通過巧妙地融合短期記憶和長期記憶,有效解決了長文本建模的難題。其高效的訓(xùn)練方法和在多個(gè)任務(wù)上的優(yōu)異性能,為未來長文本處理的研究提供了新的方向。


        聯(lián)系作者

        文章來源:人工智能學(xué)家
        作者微信:
        作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 久久免费高清视频| 美女被爆羞羞网站在免费观看| 日亚毛片免费乱码不卡一区 | 久久久久久国产精品免费免费男同 | 日韩一级免费视频| 亚洲色偷拍另类无码专区| 一级一片免费视频播放| 91频在线观看免费大全| 亚洲国产一区视频| 深夜福利在线视频免费| 亚洲一区二区三区自拍公司| 精品国产呦系列在线观看免费 | 在线观看国产一区亚洲bd| 福利片免费一区二区三区| 亚洲成a人片在线观看精品| 特级毛片全部免费播放a一级| 国产一级淫片视频免费看| 亚洲日本视频在线观看| 中文字幕人成无码免费视频| 亚洲一本一道一区二区三区| 国产老女人精品免费视频| 成人免费网站视频www| 亚洲中文字幕无码爆乳AV| 十八禁无码免费网站| 精品亚洲国产成人| 四虎影视永久免费观看| 精品无码国产污污污免费网站国产 | 久久久久亚洲Av片无码v| 91精品免费久久久久久久久| 国产亚洲人成网站观看| 91青青国产在线观看免费| 亚洲AV日韩AV永久无码久久| 黄页网站免费在线观看| 男男gvh肉在线观看免费| 亚洲va无码专区国产乱码| 成人免费一区二区无码视频| 一级毛片大全免费播放| 久久精品国产亚洲av高清漫画 | 亚洲色大成网站www永久| 日韩免费观看一级毛片看看| 国产成人AV免费观看|