Sigmoid注意力一樣強,蘋果開始重新審視注意力機制
AIGC動態(tài)歡迎閱讀
原標題:Sigmoid注意力一樣強,蘋果開始重新審視注意力機制
關(guān)鍵字:注意力,序列,矩陣,函數(shù),內(nèi)存
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
機器之心編輯部注意力是 Transformer 架構(gòu)的關(guān)鍵部分,負責將每個序列元素轉(zhuǎn)換為值的加權(quán)和。將查詢與所有鍵進行點積,然后通過 softmax 函數(shù)歸一化,會得到每個鍵對應(yīng)的注意力權(quán)重。
盡管 SoftmaxAttn 中的 softmax 具有廣泛的用途和有效性,但它并非沒有局限性。例如,softmax 函數(shù)有時會導(dǎo)致注意力集中在少數(shù)幾個特征,而忽略了其他信息。
近來,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函數(shù)。最近,來自蘋果的研究者重新審視了 sigmoid 注意力并進行了深入的理論和實驗分析。
該研究證明:從理論上講,與 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函數(shù)逼近器,并且受益于改進的正則化。論文地址:https://arxiv.org/pdf/2409.04431
項目地址:https://github.com/apple/ml-sigmoid-attention
論文標題:Theory, Analysis, and Best
原文鏈接:Sigmoid注意力一樣強,蘋果開始重新審視注意力機制
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...