<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        谷歌新架構(gòu)一戰(zhàn)成名,打破Transformer記憶瓶頸,姚班校友鐘沛林新作

        AIGC動態(tài)8個月前發(fā)布 量子位
        329 0 0

        意料之外的“驚喜”更容易被AI記住

        谷歌新架構(gòu)一戰(zhàn)成名,打破Transformer記憶瓶頸,姚班校友鐘沛林新作

        原標(biāo)題:谷歌新架構(gòu)一戰(zhàn)成名,打破Transformer記憶瓶頸,姚班校友鐘沛林新作
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):3197字

        谷歌Titan架構(gòu):挑戰(zhàn)Transformer的新型深度學(xué)習(xí)架構(gòu)

        本文總結(jié)了谷歌研究團(tuán)隊提出的新型深度學(xué)習(xí)架構(gòu)Titan,該架構(gòu)旨在挑戰(zhàn)Transformer的局限性,尤其是在處理長文本和長期記憶方面。文章重點介紹了Titan的核心創(chuàng)新點、架構(gòu)變體以及實驗結(jié)果。

        1. 背景:Transformer的局限性與Titan的動機

        Transformer的注意力機制雖然強大,但其短期記憶特性限制了其處理超長序列的能力。現(xiàn)有模型如LSTM也存在容量有限或計算開銷過大的問題。Titan團(tuán)隊受神經(jīng)心理學(xué)啟發(fā),旨在構(gòu)建一個能夠有效存儲和檢索長期信息的深度學(xué)習(xí)模型。

        2. Titan的核心創(chuàng)新:神經(jīng)長期記憶模塊(LMM)

        Titan的核心是其神經(jīng)長期記憶模塊(LMM)。該模塊模仿人腦記憶機制,優(yōu)先記憶“驚喜”程度高的(由輸入的梯度衡量)。通過引入動量機制累積短期驚喜形成長期記憶,并通過遺忘機制防止記憶溢出。LMM由多層MLP組成,能夠存儲深層次的數(shù)據(jù)抽象,比傳統(tǒng)的矩陣記憶更強大。這種在線元學(xué)習(xí)范式使得模型能夠根據(jù)新數(shù)據(jù)調(diào)整自身,提升泛化能力,并支持并行計算。

        3. Titan的架構(gòu)變體

        為了將LMM融入深度學(xué)習(xí)架構(gòu),Titan提出了三種變體:

        • MAC (Memory As Context): 將長期記憶和持久記憶作為當(dāng)前輸入的上下文,一同輸入到注意力機制。
        • MAG (Memory As Gate): 在記憶模塊和滑動窗口注意力機制兩個分支上進(jìn)行門控融合。
        • MAL (Memory As Layer): 將記憶模塊作為的一層,壓縮歷史信息后再輸入到注意力機制。

        實驗表明,每種方法都有各自的優(yōu)缺點。

        4. 實驗結(jié)果與性能

        Titan在語言建模、常識推理、時間序列預(yù)測等任務(wù)上全面超越了Transformer和Mamba等架構(gòu)的SOTA模型。即使僅使用LMM,也在多個任務(wù)上擊敗了基線模型,證明了其學(xué)習(xí)能力。在長文本“大海撈針”測試中,Titan在序列長度從2k增加到16k的情況下,準(zhǔn)確率仍保持在90%左右。在需要對分布在極長文檔中的事實進(jìn)行推理的任務(wù)中,Titan的表現(xiàn)超過了GPT-4、Mamba以及Llama3.1 + RAG系統(tǒng)。在時間序列預(yù)測和DNA序列建模等特定任務(wù)中,Titan也取得了不錯的表現(xiàn)。

        5. 團(tuán)隊背景與未來展望

        該研究由來自Google Research NYC算法和優(yōu)化團(tuán)隊的三位作者完成,一作為康奈爾大學(xué)實習(xí)生Ali Behrouz,團(tuán)隊計劃很快公開用于訓(xùn)練和評估模型的代碼。

        總而言之,Titan架構(gòu)通過引入創(chuàng)新的神經(jīng)長期記憶模塊,有效地解決了Transformer在處理長文本和長期依賴方面的局限性,并在多個任務(wù)上取得了顯著的性能提升。這項研究為深度學(xué)習(xí)架構(gòu)的發(fā)展提供了新的方向。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人黄色免费网站| 免费不卡中文字幕在线| 国产h视频在线观看网站免费| 亚洲精品和日本精品| 亚洲av永久无码制服河南实里 | 曰批全过程免费视频免费看| 巨胸喷奶水www永久免费| 中文毛片无遮挡高潮免费| 亚洲精品无码久久久久久久| 看成年女人免费午夜视频| 久久青草免费91线频观看站街| 成人爽A毛片免费看| 亚洲精品无码mv在线观看网站| 亚洲国产电影在线观看| 一级大黄美女免费播放| 成年女人喷潮毛片免费播放| 国产亚洲精AA在线观看SEE| 久久国产乱子精品免费女 | eeuss免费影院| 国产黄色片在线免费观看| 激情内射亚洲一区二区三区| eeuss影院免费直达入口| 亚洲日本一区二区三区在线| 国产成人精品亚洲一区| 久久亚洲中文字幕精品一区| 亚洲国产精品成人AV在线| 无码国产精品一区二区免费| 久久久久亚洲精品影视| 中文字幕免费在线看线人动作大片| 亚洲成A∨人片在线观看不卡 | 本道天堂成在人线av无码免费| 亚洲精品成人无码中文毛片不卡| 日韩插啊免费视频在线观看| 久久亚洲中文字幕精品一区四| 久久99精品免费视频| 久久精品国产亚洲AV麻豆不卡| 国产免费的野战视频| 免费一级毛片在线播放放视频| 少妇中文字幕乱码亚洲影视 | 亚洲熟妇无码八AV在线播放| 久久精品国产免费观看|