原標題:谷歌推出Transformer架構的繼任者Titans:訓練代碼也會公開
文章來源:人工智能學家
內容字數:9852字
谷歌發布Transformer繼任者Titans:神經長期記憶模塊賦能AI
本文概述了谷歌最新發布的Transformer架構繼任者——Titans,以及其核心創新、架構設計和實驗結果。
1. Titans的核心創新:神經長期記憶模塊
Titans的核心創新在于提出了一種新型的神經長期記憶模塊,該模塊能夠在測試時學習記憶。它通過將訓練過程視為在線學習問題,并根據輸入的“驚訝程度”(通過計算神經網絡相對于輸入的梯度來衡量)來更新記憶。為了解決記憶容量有限的問題,該模塊還引入了自適應的遺忘機制,并通過實驗發現深度記憶模塊(多層感知機)比線性模型更有效。記憶的檢索則通過簡單的正向傳遞實現。
2. Titans架構設計:三個分支協同工作
Titans架構包含三個分支:核心分支(Core)使用注意力機制處理數據;長期記憶分支(Long-term Memory)使用神經長期記憶模塊存儲和回憶歷史信息;持久記憶分支(Persistent Memory)使用可學習但不依賴于數據的參數編碼任務相關知識。論文提出了三種不同的Titans變體:上下文記憶(MAC)、門控記憶(MAG)和層式記憶(MAL),分別探索了不同記憶融合方式的有效性。
3. 實驗結果:超越Transformer和循環模型
在語言建模、常識推理、長距離依賴、時間序列預測和DNA建模等任務上,Titans架構在所有基準測試中都優于現代循環模型及其混合變體,并在相同上下文窗口大小下優于Transformer模型。尤其在長上下文任務中,Titans展現出更具競爭力的性能,并能有效擴展到大于2M的上下文窗口大小。消融研究驗證了架構中每個組件的積極貢獻,其中權重衰減、動量、卷積和持久記憶的貢獻最大。
4. 代碼開源與未來展望
Titans已使用PyTorch和JAX實現,谷歌計劃很快公開用于訓練和評估模型的代碼。這項研究為深度學習模型的長期記憶機制提供了新的思路,有望進一步提升AI模型在處理長序列數據和復雜任務方面的能力。
5. 補充:歐米伽研究所“未來知識庫”
文章最后提及了歐米伽研究所的“未來知識庫”,這是一個收集人工智能、腦科學等領域前沿進展與未來趨勢的在線知識庫平臺,提供大量前沿科技趨勢報告,例如美國眾議院人工智能報告、DeepMind AI 加速科學創新報告等。 這部分內容旨在引導讀者進一步了解相關領域的最新研究進展。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構