斯坦福提出大模型最強(qiáng)架構(gòu)TTT,超越Transformers
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:斯坦福提出大模型最強(qiáng)架構(gòu)TTT,超越Transformers
關(guān)鍵字:梯度,模型,上下文,線性,文本
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年在Transformer被提出以前,以LSTMs為代表的RNNs網(wǎng)絡(luò)結(jié)構(gòu)由于計(jì)算簡單、擅長處理序列數(shù)據(jù)常被用作NLP領(lǐng)域的基礎(chǔ)架構(gòu)。但受其結(jié)構(gòu)限制,RNNs容易出現(xiàn)梯度消失和梯度問題,也無法像Transformer那樣進(jìn)行縮放或有效地利用長上下文。而自注意力機(jī)制則擅長處理長文本,但它計(jì)算起來有些復(fù)雜,復(fù)雜度跟數(shù)據(jù)長度的平方成正比。
最近,來自Stanford的團(tuán)隊(duì)設(shè)計(jì)了一種新的序列建模層——測試時(shí)訓(xùn)練(Learn at Test Time)(TTT)層。這個(gè)層既保持了線性復(fù)雜度的好處,又讓隱藏狀態(tài)變得更加強(qiáng)大和靈活。TTT受自監(jiān)督學(xué)習(xí)啟發(fā),把隱藏狀態(tài)本身變成一個(gè)小型的機(jī)器學(xué)習(xí)模型,然后每次處理新數(shù)據(jù)時(shí),都用自監(jiān)督學(xué)習(xí)的方式來更新這個(gè)模型。這樣,隱藏狀態(tài)就能不斷學(xué)習(xí)和進(jìn)步,就像我們?nèi)祟愒趯W(xué)習(xí)新知識(shí)一樣。
論文標(biāo)題:Learning to (Learn at Test Time): RNNs with Expressive Hidden States
論文鏈接:https://arxiv.org/pdf/2407.04620
作者測試了從125M到1.
原文鏈接:斯坦福提出大模型最強(qiáng)架構(gòu)TTT,超越Transformers
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189