ICLR 2025 | 極性感知線性注意力!哈工深張正團(tuán)隊(duì)提出PolaFormer視覺基礎(chǔ)模型
本文提出的線性注意力模塊可以直接替換現(xiàn)有Vision Transformer框架中,并在視覺基礎(chǔ)任務(wù)和LRA任務(wù)上一致地提升了性能。
原標(biāo)題:ICLR 2025 | 極性感知線性注意力!哈工深張正團(tuán)隊(duì)提出PolaFormer視覺基礎(chǔ)模型
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6926字
PolaFormer: 提升視覺Transformer效率與性能的極性感知線性注意力
本文介紹了哈爾濱工業(yè)大學(xué)(深圳)與鵬城實(shí)驗(yàn)室的研究成果PolaFormer,一種新型高效的Vision Transformer,它通過引入極性感知線性注意力機(jī)制,在保持線性復(fù)雜度的同時(shí)顯著提升了模型的性能。
1. Vision Transformer的效率瓶頸
Vision Transformer及其變體在視覺任務(wù)中表現(xiàn)出色,但其核心模塊——自注意力機(jī)制的O(N2)復(fù)雜度限制了其在處理長序列或高分辨率圖像時(shí)的效率。線性注意力機(jī)制通過核函數(shù)替換softmax函數(shù),將復(fù)雜度降低為O(N),但其表達(dá)能力通常不如基于softmax的注意力。
2. PolaFormer的核心改進(jìn)
PolaFormer主要解決了現(xiàn)有線性注意力機(jī)制的兩個(gè)不足:負(fù)值丟失和注意力分布高信息熵。
- 極性感知注意力:針對負(fù)值丟失問題,PolaFormer將query和key向量分解為正部和負(fù)部,分別計(jì)算正相似度和負(fù)相似度,從而保留了所有元素的交互信息,增強(qiáng)了模型的表達(dá)能力。
- 可學(xué)習(xí)冪函數(shù):針對高信息熵問題,PolaFormer從理論上證明了一族具有特殊性質(zhì)的映射函數(shù)可以有效降低注意力權(quán)重分布的信息熵,并采用可學(xué)習(xí)的冪函數(shù)來實(shí)現(xiàn)這一目標(biāo),從而提高模型區(qū)分強(qiáng)弱響應(yīng)的能力。
PolaFormer通過以上兩點(diǎn)改進(jìn),有效彌合了線性注意力和基于softmax的注意力之間的性能差距。
3. 實(shí)驗(yàn)結(jié)果與結(jié)論
實(shí)驗(yàn)結(jié)果表明,PolaFormer在圖像分類、目標(biāo)檢測、實(shí)例分割和語義分割等視覺任務(wù)以及LRA任務(wù)上都取得了顯著的性能提升,并優(yōu)于其他線性注意力模型。PolaFormer可以直接替換現(xiàn)有Vision Transformer框架中的自注意力模塊,具有良好的實(shí)用性。
4. 主要貢獻(xiàn)總結(jié)
PolaFormer的主要貢獻(xiàn)包括:
- 提出極性感知線性注意力,解決了現(xiàn)有線性注意力機(jī)制忽略負(fù)值的問題。
- 理論上證明并采用可學(xué)習(xí)的冪函數(shù)來降低注意力分布的信息熵。
- 在多個(gè)視覺任務(wù)和LRA任務(wù)上取得了優(yōu)異的性能。
PolaFormer為高效Vision Transformer的設(shè)計(jì)提供了一種新的思路,為其在資源受限環(huán)境下的應(yīng)用提供了有力支撐。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)