AIGC動態歡迎閱讀
原標題:Sigmoid注意力一樣強,蘋果開始重新審視注意力機制
關鍵字:注意力,序列,矩陣,函數,內存
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部注意力是 Transformer 架構的關鍵部分,負責將每個序列元素轉換為值的加權和。將查詢與所有鍵進行點積,然后通過 softmax 函數歸一化,會得到每個鍵對應的注意力權重。
盡管 SoftmaxAttn 中的 softmax 具有廣泛的用途和有效性,但它并非沒有局限性。例如,softmax 函數有時會導致注意力集中在少數幾個特征,而忽略了其他信息。
近來,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函數。最近,來自蘋果的研究者重新審視了 sigmoid 注意力并進行了深入的理論和實驗分析。
該研究證明:從理論上講,與 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函數逼近器,并且受益于改進的正則化。論文地址:https://arxiv.org/pdf/2409.04431
項目地址:https://github.com/apple/ml-sigmoid-attention
論文標題:Theory, Analysis, and Best
原文鏈接:Sigmoid注意力一樣強,蘋果開始重新審視注意力機制
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...