新架構(gòu)RNN反超Transformer:每個隱藏狀態(tài)都是一個模型,一作:從根本上改變語言模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:新架構(gòu)RNN反超Transformer:每個隱藏狀態(tài)都是一個模型,一作:從根本上改變語言模型
關(guān)鍵字:模型,上下文,狀態(tài),線性,梯度
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI新架構(gòu),再次向Transformer發(fā)起挑戰(zhàn)!
核心思想:將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。
甚至在測試時都可以學(xué)習(xí),所以該方法稱為TTT(Test-Time Training)。
共同一作UC伯克利的Karen Dalal表示:我相信這將從根本上改變語言模型。
一個TTT層擁有比RNN表達(dá)能力更強(qiáng)的隱藏狀態(tài),可以直接取代Transformer中昂貴的自注意力層。
在實驗中,隱藏狀態(tài)是線性模型的TTT-Linear表現(xiàn)超過了Transformer和Mamba,用更少的算力達(dá)到更低的困惑度(左),也能更好利用長上下文(右)。
此外,隱藏狀態(tài)是MLP模型的TTT-MLP在32k長上下文時表現(xiàn)還要更好。
Karen Dalel還指出,理論上可學(xué)習(xí)的隱藏狀態(tài)可以是任意模型,對于更長上下文來說,可以是CNN、甚至可以是完整的Transformer來套娃。
目前剛剛出爐的TTT論文已經(jīng)在學(xué)術(shù)界引起關(guān)注和討論,斯坦福博士生Andrew Gao認(rèn)為,這篇論文或許能成為下一篇Attention is all you need。
另外有人表示,眾多新架
原文鏈接:新架構(gòu)RNN反超Transformer:每個隱藏狀態(tài)都是一個模型,一作:從根本上改變語言模型
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破