這篇論文非?;穑〔罘諸ransformer竟能消除注意力噪聲,猶如降噪耳機(jī)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:這篇論文非?;穑〔罘諸ransformer竟能消除注意力噪聲,猶如降噪耳機(jī)
關(guān)鍵字:報(bào)告,注意力,上下文,模型,團(tuán)隊(duì)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:PandaTransformer 的強(qiáng)大實(shí)力已經(jīng)在諸多大型語(yǔ)言模型(LLM)上得到了證明,但該架構(gòu)遠(yuǎn)非完美,也有很多研究者致力于改進(jìn)這一架構(gòu),比如機(jī)器之心曾報(bào)道過(guò)的 Reformer 和 Infini-Transformer。
今天我們又將介紹另一種新型 Transformer 架構(gòu):Differential Transformer(差分 Transformer,簡(jiǎn)稱(chēng) Diff Transformer)。該架構(gòu)來(lái)自微軟研究院和清華大學(xué),有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。論文標(biāo)題:Differential Transformer
論文地址:https://arxiv.org/pdf/2410.05258
在 Hacker News 及 Twitter 等社交網(wǎng)絡(luò)上,該論文都反響熱烈,有網(wǎng)友表示差分 Transformer 提出的改進(jìn)簡(jiǎn)單又美麗,而帶來(lái)的提升又非常顯著。甚至已有開(kāi)發(fā)者做出了差分 Transformer 的輕量實(shí)現(xiàn)!差分 Transformer 的輕量實(shí)現(xiàn),https://github.com/
原文鏈接:這篇論文非常火!差分Transformer竟能消除注意力噪聲,猶如降噪耳機(jī)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: