微軟清華改進(jìn)Transformer:用降噪耳機(jī)原理升級注意力,一作在線答疑
AIGC動態(tài)歡迎閱讀
原標(biāo)題:微軟清華改進(jìn)Transformer:用降噪耳機(jī)原理升級注意力,一作在線答疑
關(guān)鍵字:注意力,上下文,噪聲,準(zhǔn)確率,模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAITransformer自問世后就大放異彩,但有個小毛病一直沒解決:
總愛把注意力放在不相關(guān)的內(nèi)容上,也就是信噪比低。
現(xiàn)在微軟亞研院、清華團(tuán)隊出手,提出全新改進(jìn)版Differential Transformer,專治這個病,引起熱議。
論文中介紹,整體思路類似差分放大電路或降噪耳機(jī),用兩個信號的差值來濾除共模噪聲。
具體到在語言模型中,如果句子很長,只有少數(shù)token會真正影響當(dāng)前token的含義。而注意力機(jī)制允許每兩個詞之間產(chǎn)生交互,其中就包含大量噪聲了。
團(tuán)隊提出的方法是在注意力層中增加一個Softmax,然后兩個Softmax做減法。
這一減,噪音信息就被大幅抵消,讓注意力更集中在相關(guān)內(nèi)容上。
語言建模任務(wù)上的一系列實驗結(jié)果顯示,僅需約65%的模型大小或訓(xùn)練tokens,DIFF Transformer就能達(dá)到與傳統(tǒng)Transformer相當(dāng)?shù)男阅堋?br />新架構(gòu)在長上下文建模、關(guān)鍵信息檢索、減少幻覺、提高上下文學(xué)習(xí)能力以及減少激活異常值等各項指標(biāo)中,普遍優(yōu)于Transformer架構(gòu)。
論文上傳到arXiv平臺后,有不少學(xué)者到彈幕
原文鏈接:微軟清華改進(jìn)Transformer:用降噪耳機(jī)原理升級注意力,一作在線答疑
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: