ICLR 2025 | 極性感知線性注意力！哈工深張正團(tuán)隊(duì)提出PolaFormer視覺基礎(chǔ)模型

本文提出的線性注意力模塊可以直接替換現(xiàn)有Vision Transformer框架中，并在視覺基礎(chǔ)任務(wù)和LRA任務(wù)上一致地提升了性能。

原標(biāo)題：ICLR 2025 | 極性感知線性注意力！哈工深張正團(tuán)隊(duì)提出PolaFormer 視覺基礎(chǔ)模型
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6926字

PolaFormer: 提升視覺Transformer效率與性能的極性感知線性注意力

本文介紹了哈爾濱工業(yè)大學(xué)（深圳）與鵬城實(shí)驗(yàn)室的研究成果PolaFormer，一種新型高效的Vision Transformer，它通過引入極性感知線性注意力機(jī)制，在保持線性復(fù)雜度的同時(shí)顯著提升了模型的性能。

1. Vision Transformer的效率瓶頸

Vision Transformer及其變體在視覺任務(wù)中表現(xiàn)出色，但其核心模塊——自注意力機(jī)制的O(N2)復(fù)雜度限制了其在處理長序列或高分辨率圖像時(shí)的效率。線性注意力機(jī)制通過核函數(shù)替換softmax函數(shù)，將復(fù)雜度降低為O(N)，但其表達(dá)能力通常不如基于softmax的注意力。

2. PolaFormer的核心改進(jìn)

PolaFormer主要解決了現(xiàn)有線性注意力機(jī)制的兩個(gè)不足：負(fù)值丟失和注意力分布高信息熵。

極性感知注意力：針對負(fù)值丟失問題，PolaFormer將query和key向量分解為正部和負(fù)部，分別計(jì)算正相似度和負(fù)相似度，從而保留了所有元素的交互信息，增強(qiáng)了模型的表達(dá)能力。
可學(xué)習(xí)冪函數(shù)：針對高信息熵問題，PolaFormer從理論上證明了一族具有特殊性質(zhì)的映射函數(shù)可以有效降低注意力權(quán)重分布的信息熵，并采用可學(xué)習(xí)的冪函數(shù)來實(shí)現(xiàn)這一目標(biāo)，從而提高模型區(qū)分強(qiáng)弱響應(yīng)的能力。

PolaFormer通過以上兩點(diǎn)改進(jìn)，有效彌合了線性注意力和基于softmax的注意力之間的性能差距。

3. 實(shí)驗(yàn)結(jié)果與結(jié)論

實(shí)驗(yàn)結(jié)果表明，PolaFormer在圖像分類、目標(biāo)檢測、實(shí)例分割和語義分割等視覺任務(wù)以及LRA任務(wù)上都取得了顯著的性能提升，并優(yōu)于其他線性注意力模型。PolaFormer可以直接替換現(xiàn)有Vision Transformer框架中的自注意力模塊，具有良好的實(shí)用性。

4. 主要貢獻(xiàn)總結(jié)

PolaFormer的主要貢獻(xiàn)包括：

提出極性感知線性注意力，解決了現(xiàn)有線性注意力機(jī)制忽略負(fù)值的問題。
理論上證明并采用可學(xué)習(xí)的冪函數(shù)來降低注意力分布的信息熵。
在多個(gè)視覺任務(wù)和LRA任務(wù)上取得了優(yōu)異的性能。

PolaFormer為高效Vision Transformer的設(shè)計(jì)提供了一種新的思路，為其在資源受限環(huán)境下的應(yīng)用提供了有力支撐。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# PolaFormer # 哈工深張正團(tuán)隊(duì)# 極性感知 # 線性注意力 # 視覺基礎(chǔ)模型

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ICLR 2025 | 極性感知線性注意力！哈工深張正團(tuán)隊(duì)提出PolaFormer視覺基礎(chǔ)模型

本文提出的線性注意力模塊可以直接替換現(xiàn)有Vision Transformer框架中，并在視覺基礎(chǔ)任務(wù)和LRA任務(wù)上一致地提升了性能。

PolaFormer: 提升視覺Transformer效率與性能的極性感知線性注意力

1. Vision Transformer的效率瓶頸

2. PolaFormer的核心改進(jìn)

3. 實(shí)驗(yàn)結(jié)果與結(jié)論

4. 主要貢獻(xiàn)總結(jié)

聯(lián)系作者

謝謝Deepseek，o3-mini發(fā)布即免費(fèi)！編程斷崖式領(lǐng)先，思考過程冰冷而客觀

硅基流動(dòng)上線DeepSeek R1&V3推理服務(wù)！和華為云合作，全國產(chǎn)服務(wù)

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？