RNN效率媲美Transformer,谷歌新架構(gòu)兩:同等規(guī)模強(qiáng)于Mamba
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:RNN效率媲美Transformer,谷歌新架構(gòu)兩:同等規(guī)模強(qiáng)于Mamba
關(guān)鍵字:模型,報(bào)告,研究者,序列,基線
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8869字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部去年 12 月,新架構(gòu) Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 發(fā)起了挑戰(zhàn)。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出為 AI 圈提供了新的選擇。這一次,谷歌 DeepMind 在基礎(chǔ)模型方面又有了新動(dòng)作。
我們知道,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在深度學(xué)習(xí)和自然語(yǔ)言處理研究的早期發(fā)揮了核心作用,并在許多應(yīng)用中取得了實(shí)功,包括谷歌第一個(gè)端到端機(jī)器翻譯系統(tǒng)。不過(guò)近年來(lái),深度學(xué)習(xí)和 NLP 都以 Transformer 架構(gòu)為主,該架構(gòu)融合了多層感知器(MLP)和多頭注意力(MHA)。
Transformer 已經(jīng)在實(shí)踐中實(shí)現(xiàn)了比 RNN 更好的性能,并且在利用現(xiàn)代硬件方面也非常高效。基于 Transformer 的大語(yǔ)言模型在從網(wǎng)絡(luò)收集的海量數(shù)據(jù)集上進(jìn)行訓(xùn)練,取得了顯著的成功。
縱然取得了很大的成功,但 Transformer 架構(gòu)仍有不足之處,比如由于全局注意力的二次復(fù)雜性,Transformer 很難有效地?cái)U(kuò)展到長(zhǎng)序列。此外,鍵值(KV)緩存隨序列長(zhǎng)度線性增長(zhǎng),導(dǎo)致 Transformer 在推理過(guò)程中變慢。
原文鏈接:RNN效率媲美Transformer,谷歌新架構(gòu)兩:同等規(guī)模強(qiáng)于Mamba
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)