AIGC動態歡迎閱讀
原標題:清華微軟最新力作:用物理學革新Transformer注意力,「大海撈針」精度暴漲30%!
關鍵字:注意力,模型,報告,上下文,微軟
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊 好困
【新智元導讀】隨著諾貝爾物理學獎頒給了「機器學習之父」Geoffrey Hinton,另一個借鑒物理學概念的模型架構也橫空出世——微軟清華團隊的最新架構Differential Transformer,從注意力模塊入手,實現了Transformer的核心能力提升。隨著近些年來NLP領域研究的不斷深入,我們逐漸發現,Transformer架構現的幻覺問題,以及各種下游任務中的性能不足,都或多或少與注意力缺陷有關。
雖然上下文窗口可以擴展,但是Transformer還是無法真正關注到有價值的信息。
最近,微軟研究院和清華大學的研究人員共同提出了一種新的模型架構——Differential Transformer,不僅保留了原始Transformer中的可擴展性,也能讓模型更加關注上下文中與任務相關的關鍵信息。
實驗表明,注意力機制的改進,不僅顯著提升了檢索精度,還能緩解LLM的幻覺。
論文地址:https://arxiv.org/abs/2410.05258
Transformer的困境眾所周知,Transformer的核心是注意力機制,采用softmax
原文鏈接:清華微軟最新力作:用物理學革新Transformer注意力,「大海撈針」精度暴漲30%!
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...