超越 Transformer 與 Mamba，Meta 聯合斯坦福等高校推出最強架構 TTT

AIGC動態1年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：超越 Transformer 與 Mamba，Meta 聯合斯坦福等高校推出最強架構 TTT
關鍵字：模型,長上,上下文,狀態,下文
文章來源：AI前線
內容字數：0字

內容摘要：

作者 | 趙明華
近日，斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構，用機器學習模型取代 RNN 的隱藏狀態。
圖 1 所有序列建模層都可以表示為一個根據更新規則轉換的隱藏狀態
這個模型通過對輸入 token 進行梯度下降來壓縮上下文，這種方法被稱為「測試時間訓練層（Test-Time-Training layers，TTT）」。該研究作者之一 Karan Dalal 表示，他相信這將根本性地改變語言模型方法。
自注意力機制在處理長上下文時表現良好，但其復雜度是二次的。現有的 RNN 層具有線性復雜度，但其在長上下文中的表現受限于其隱藏狀態的表達能力。隨著上下文長度的增加，成本也會越來越高。
作者提出了一種具有線性復雜度和表達能力強的隱藏狀態的新型序列建模層。關鍵思路是讓隱藏狀態本身成為一個機器學習模型，并將更新規則設為自監督學習的一步。
圖 2，RNN 層與 TTT 層的關系
論文中提出了兩種實例：TTT-Linear 和 TTT-MLP，它們的隱藏狀態分別是線性模型和兩層 MLP。團隊在 125M 到 1.3B 參數規模上評估了實例，并與強大的 Tran

原文鏈接：超越 Transformer 與 Mamba，Meta 聯合斯坦福等高校推出最強架構 TTT