微軟清華改進Transformer：用降噪耳機原理升級注意力，一作在線答疑

AIGC動態歡迎閱讀

原標題：微軟清華改進Transformer：用降噪耳機原理升級注意力，一作在線答疑
關鍵字：注意力,上下文,噪聲,準確率,模型
文章來源：量子位
內容字數：0字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAITransformer自問世后就大放異彩，但有個小毛病一直沒解決：
總愛把注意力放在不相關的內容上，也就是信噪比低。
現在微軟亞研院、清華團隊出手，提出全新改進版Differential Transformer，專治這個病，引起熱議。
論文中介紹，整體思路類似差分放大電路或降噪耳機，用兩個信號的差值來濾除共模噪聲。
具體到在語言模型中，如果句子很長，只有少數token會真正影響當前token的含義。而注意力機制允許每兩個詞之間產生交互，其中就包含大量噪聲了。
團隊提出的方法是在注意力層中增加一個Softmax，然后兩個Softmax做減法。
這一減，噪音信息就被大幅抵消，讓注意力更集中在相關內容上。
語言建模任務上的一系列實驗結果顯示，僅需約65%的模型大小或訓練tokens，DIFF Transformer就能達到與傳統Transformer相當的性能。
新架構在長上下文建模、關鍵信息檢索、減少幻覺、提高上下文學習能力以及減少激活異常值等各項指標中，普遍優于Transformer架構。
論文上傳到arXiv平臺后，有不少學者到彈幕

原文鏈接：微軟清華改進Transformer：用降噪耳機原理升級注意力，一作在線答疑