AIGC動態歡迎閱讀
原標題:斯坦福提出大模型最強架構TTT,超越Transformers
關鍵字:梯度,模型,上下文,線性,文本
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年在Transformer被提出以前,以LSTMs為代表的RNNs網絡結構由于計算簡單、擅長處理序列數據常被用作NLP領域的基礎架構。但受其結構限制,RNNs容易出現梯度消失和梯度問題,也無法像Transformer那樣進行縮放或有效地利用長上下文。而自注意力機制則擅長處理長文本,但它計算起來有些復雜,復雜度跟數據長度的平方成正比。
最近,來自Stanford的團隊設計了一種新的序列建模層——測試時訓練(Learn at Test Time)(TTT)層。這個層既保持了線性復雜度的好處,又讓隱藏狀態變得更加強大和靈活。TTT受自監督學習啟發,把隱藏狀態本身變成一個小型的機器學習模型,然后每次處理新數據時,都用自監督學習的方式來更新這個模型。這樣,隱藏狀態就能不斷學習和進步,就像我們人類在學習新知識一樣。
論文標題:Learning to (Learn at Test Time): RNNs with Expressive Hidden States
論文鏈接:https://arxiv.org/pdf/2407.04620
作者測試了從125M到1.
原文鏈接:斯坦福提出大模型最強架構TTT,超越Transformers
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...