AIGC動態歡迎閱讀
原標題:新架構RNN反超Transformer:每個隱藏狀態都是一個模型,一作:從根本上改變語言模型
關鍵字:模型,上下文,狀態,線性,梯度
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI新架構,再次向Transformer發起挑戰!
核心思想:將RNN中的隱藏狀態換成可學習的模型。
甚至在測試時都可以學習,所以該方法稱為TTT(Test-Time Training)。
共同一作UC伯克利的Karen Dalal表示:我相信這將從根本上改變語言模型。
一個TTT層擁有比RNN表達能力更強的隱藏狀態,可以直接取代Transformer中昂貴的自注意力層。
在實驗中,隱藏狀態是線性模型的TTT-Linear表現超過了Transformer和Mamba,用更少的算力達到更低的困惑度(左),也能更好利用長上下文(右)。
此外,隱藏狀態是MLP模型的TTT-MLP在32k長上下文時表現還要更好。
Karen Dalel還指出,理論上可學習的隱藏狀態可以是任意模型,對于更長上下文來說,可以是CNN、甚至可以是完整的Transformer來套娃。
目前剛剛出爐的TTT論文已經在學術界引起關注和討論,斯坦福博士生Andrew Gao認為,這篇論文或許能成為下一篇Attention is all you need。
另外有人表示,眾多新架
原文鏈接:新架構RNN反超Transformer:每個隱藏狀態都是一個模型,一作:從根本上改變語言模型
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...