新架構(gòu)RNN反超Transformer：每個隱藏狀態(tài)都是一個模型，一作：從根本上改變語言模型

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：新架構(gòu)RNN反超Transformer：每個隱藏狀態(tài)都是一個模型，一作：從根本上改變語言模型
關(guān)鍵字：模型,上下文,狀態(tài),線性,梯度
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夢晨發(fā)自凹非寺量子位 | 公眾號 QbitAI新架構(gòu)，再次向Transformer發(fā)起挑戰(zhàn)！
核心思想：將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。
甚至在測試時都可以學(xué)習(xí)，所以該方法稱為TTT（Test-Time Training）。
共同一作UC伯克利的Karen Dalal表示：我相信這將從根本上改變語言模型。
一個TTT層擁有比RNN表達(dá)能力更強(qiáng)的隱藏狀態(tài)，可以直接取代Transformer中昂貴的自注意力層。
在實驗中，隱藏狀態(tài)是線性模型的TTT-Linear表現(xiàn)超過了Transformer和Mamba，用更少的算力達(dá)到更低的困惑度（左），也能更好利用長上下文（右）。
此外，隱藏狀態(tài)是MLP模型的TTT-MLP在32k長上下文時表現(xiàn)還要更好。
Karen Dalel還指出，理論上可學(xué)習(xí)的隱藏狀態(tài)可以是任意模型，對于更長上下文來說，可以是CNN、甚至可以是完整的Transformer來套娃。
目前剛剛出爐的TTT論文已經(jīng)在學(xué)術(shù)界引起關(guān)注和討論，斯坦福博士生Andrew Gao認(rèn)為，這篇論文或許能成為下一篇Attention is all you need。
另外有人表示，眾多新架

原文鏈接：新架構(gòu)RNN反超Transformer：每個隱藏狀態(tài)都是一個模型，一作：從根本上改變語言模型