AIGC動態歡迎閱讀
原標題:微軟清華改進Transformer:用降噪耳機原理升級注意力,一作在線答疑
關鍵字:注意力,上下文,噪聲,準確率,模型
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAITransformer自問世后就大放異彩,但有個小毛病一直沒解決:
總愛把注意力放在不相關的內容上,也就是信噪比低。
現在微軟亞研院、清華團隊出手,提出全新改進版Differential Transformer,專治這個病,引起熱議。
論文中介紹,整體思路類似差分放大電路或降噪耳機,用兩個信號的差值來濾除共模噪聲。
具體到在語言模型中,如果句子很長,只有少數token會真正影響當前token的含義。而注意力機制允許每兩個詞之間產生交互,其中就包含大量噪聲了。
團隊提出的方法是在注意力層中增加一個Softmax,然后兩個Softmax做減法。
這一減,噪音信息就被大幅抵消,讓注意力更集中在相關內容上。
語言建模任務上的一系列實驗結果顯示,僅需約65%的模型大小或訓練tokens,DIFF Transformer就能達到與傳統Transformer相當的性能。
新架構在長上下文建模、關鍵信息檢索、減少幻覺、提高上下文學習能力以及減少激活異常值等各項指標中,普遍優于Transformer架構。
論文上傳到arXiv平臺后,有不少學者到彈幕
原文鏈接:微軟清華改進Transformer:用降噪耳機原理升級注意力,一作在線答疑
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...