AIGC動態歡迎閱讀
原標題:Transformer竟是無限狀態RNN?
關鍵字:狀態,策略,報告,模型,遞歸
文章來源:夕小瑤科技說
內容字數:5501字
內容摘要:
夕小瑤科技說 原創作者 | 付奶茶、python近期,Transformer再度成為學術界的熱門話題!
Meta的一項最新研究帶來了一個新的發現:在某些情況下,”Transformer實際上可以被視為多狀態的RNN(MSRNN)。
自2017年問世以來,Transformer以其在多個自然語言處理任務中的卓越表現迅速成為了這一領域的寵兒,同時也使得原本在文本序列處理中占據主導地位的RNN相形見絀。
Meta的這一發現指出,盡管Transformer在理念上與RNN有所區別,但Transformer實際上可以看作是一種具有無限隱藏狀態容量的RNN變體。通過限制處理的標記數量,預訓練Transformer可以被轉換為有限的MSRNN。此外,論文中提出了一種新的策略“TOVA”,該策略基于注意力分數選擇保留哪些標記,相較于現有的緩存壓縮技術更為簡單。接下來,讓我們一起深入探索這篇論文~
論文標題:Transformers are Multi-State RNNs
論文鏈接:https://arxiv.org/pdf/2401.06104.pdf
為什么說Transformer是MSRNNRN
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...