Transformer竟是無限狀態(tài)RNN?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Transformer竟是無限狀態(tài)RNN?
關(guān)鍵字:狀態(tài),策略,報(bào)告,模型,遞歸
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):5501字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 付奶茶、python近期,Transformer再度成為學(xué)術(shù)界的熱門話題!
Meta的一項(xiàng)最新研究帶來了一個(gè)新的發(fā)現(xiàn):在某些情況下,”Transformer實(shí)際上可以被視為多狀態(tài)的RNN(MSRNN)。
自2017年問世以來,Transformer以其在多個(gè)自然語言處理任務(wù)中的卓越表現(xiàn)迅速成為了這一領(lǐng)域的寵兒,同時(shí)也使得原本在文本序列處理中占據(jù)主導(dǎo)地位的RNN相形見絀。
Meta的這一發(fā)現(xiàn)指出,盡管Transformer在理念上與RNN有所區(qū)別,但Transformer實(shí)際上可以看作是一種具有無限隱藏狀態(tài)容量的RNN變體。通過限制處理的標(biāo)記數(shù)量,預(yù)訓(xùn)練Transformer可以被轉(zhuǎn)換為有限的MSRNN。此外,論文中提出了一種新的策略“TOVA”,該策略基于注意力分?jǐn)?shù)選擇保留哪些標(biāo)記,相較于現(xiàn)有的緩存壓縮技術(shù)更為簡(jiǎn)單。接下來,讓我們一起深入探索這篇論文~
論文標(biāo)題:Transformers are Multi-State RNNs
論文鏈接:https://arxiv.org/pdf/2401.06104.pdf
為什么說Transformer是MSRNNRN
原文鏈接:Transformer竟是無限狀態(tài)RNN?
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。