斯坦福提出大模型最強(qiáng)架構(gòu)TTT，超越Transformers

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：斯坦福提出大模型最強(qiáng)架構(gòu)TTT，超越Transformers
關(guān)鍵字：梯度,模型,上下文,線性,文本
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年在Transformer被提出以前，以LSTMs為代表的RNNs網(wǎng)絡(luò)結(jié)構(gòu)由于計(jì)算簡單、擅長處理序列數(shù)據(jù)常被用作NLP領(lǐng)域的基礎(chǔ)架構(gòu)。但受其結(jié)構(gòu)限制，RNNs容易出現(xiàn)梯度消失和梯度問題，也無法像Transformer那樣進(jìn)行縮放或有效地利用長上下文。而自注意力機(jī)制則擅長處理長文本，但它計(jì)算起來有些復(fù)雜，復(fù)雜度跟數(shù)據(jù)長度的平方成正比。
最近，來自Stanford的團(tuán)隊(duì)設(shè)計(jì)了一種新的序列建模層——測試時(shí)訓(xùn)練(Learn at Test Time)（TTT）層。這個(gè)層既保持了線性復(fù)雜度的好處，又讓隱藏狀態(tài)變得更加強(qiáng)大和靈活。TTT受自監(jiān)督學(xué)習(xí)啟發(fā)，把隱藏狀態(tài)本身變成一個(gè)小型的機(jī)器學(xué)習(xí)模型，然后每次處理新數(shù)據(jù)時(shí)，都用自監(jiān)督學(xué)習(xí)的方式來更新這個(gè)模型。這樣，隱藏狀態(tài)就能不斷學(xué)習(xí)和進(jìn)步，就像我們?nèi)祟愒趯W(xué)習(xí)新知識(shí)一樣。
論文標(biāo)題:Learning to (Learn at Test Time): RNNs with Expressive Hidden States
論文鏈接：https://arxiv.org/pdf/2407.04620
作者測試了從125M到1.

原文鏈接：斯坦福提出大模型最強(qiáng)架構(gòu)TTT，超越Transformers

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文