圖靈獎得主Yoshua Bengio新作:Were RNNs All We Needed?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:圖靈獎得主Yoshua Bengio新作:Were RNNs All We Needed?
關(guān)鍵字:模型,序列,時間,研究者,任務(wù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報道
編輯:佳琪、蛋醬自從 Transformer 模型問世以來,試圖挑戰(zhàn)其在自然語言處理地位的挑戰(zhàn)者層出不窮。
這次登場的選手,不僅要挑戰(zhàn) Transformer 的地位,還致敬了經(jīng)典論文的名字。
再看這篇論文的作者列表,圖靈獎得主、深度學(xué)習(xí)三巨頭之一的 Yoshua Bengio 赫然在列。論文標(biāo)題:Were RNNs All We Needed?
論文地址:https://arxiv.org/pdf/2410.01201v1
最近,大家重新對用循環(huán)序列模型來解決 Transformer 長上下文的問題產(chǎn)生了興趣,出現(xiàn)了一大批有關(guān)成果,其中 Mamba 的成功引爆了 AI 圈,更是點燃了大家的研究熱情。
Bengio 和他的研究團(tuán)隊發(fā)現(xiàn),這些新的序列模型有很多共同點,于是他們重新審視了 LSTM 和 GRU 這兩種經(jīng)典 RNN 模型。
結(jié)果發(fā)現(xiàn),精簡掉其中的隱藏狀態(tài)依賴之后,不再需要基于時間反向傳播的 LSTM 和 GRU 的表現(xiàn)就能和 Transformer 打個平手。
LSTM 和 GRU 僅能順序處理信息,并且在訓(xùn)練時依賴反向傳播,這使得它們在處理大量數(shù)據(jù)時速度緩慢,
原文鏈接:圖靈獎得主Yoshua Bengio新作:Were RNNs All We Needed?
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: