SparseViT
原標題:AAAI 2025 | IML領域首個稀疏化視覺Transformer,代碼已開源
文章來源:機器之心
內容字數:4162字
SparseViT: 一種高效的圖像篡改定位方法
本文介紹了SparseViT,一種由四川大學呂建成團隊和澳門大學潘治文教授團隊合作開發的全新圖像篡改定位 (IML) 模型。該模型的核心在于利用稀疏自注意力機制,擺脫了傳統 IML 模型對手工制作非語義特征提取器的依賴,實現了參數效率和性能的兼顧。
1. 現有 IML 模型的局限性
現有的 IML 模型普遍采用“語義分割主干網絡 + 手工制作非語義特征提取器”的架構。這種方法存在局限性:其對未知場景的偽影提取能力有限,并且嚴重依賴人工設計的特征。
2. SparseViT 的核心思想
SparseViT 關注圖像篡改的非語義特征。研究發現,非語義特征在局部和全局之間保持一致性,且在不同圖像區域表現出更大的性。因此,SparseViT 提出了基于稀疏自注意力的架構,取代了傳統的全局自注意力機制,從而能夠自適應地提取非語義特征。
3. 關鍵組件
- Sparse Self-Attention:這是 SparseViT 的核心組件。通過將輸入特征圖劃分成塊,并在每個塊上進行自注意力計算,減少了計算復雜度(最高減少 80% 的 FLOPs),同時高效地捕獲關鍵特征。該機制避免了模型對語義信息的過度擬合,從而更好地捕捉非語義偽影。
- Learnable Feature Fusion (LFF):這是一個多尺度特征融合模塊,通過可學習參數動態調整不同尺度特征的重要性,提高模型的泛化能力和對復雜場景的適應性。LFF 優先強化與篡改相關的低頻特征,同時保留高頻特征,增強模型對微弱和大型偽影的處理能力。
4. SparseViT 的優勢
SparseViT 具有以下幾個方面的優勢:
- 參數效率:通過稀疏計算,顯著降低了計算量。
- 高性能:在多個公共數據集上實現了最先進的性能。
- 泛化能力強:可學習的多尺度監督機制增強了模型在不同場景下的適應性。
- 無需手工特征提取器:簡化了模型設計,提高了模型的普適性。
5. 開源代碼及未來展望
SparseViT 的相關代碼和文檔已完全開源在 GitHub (https://github.com/scu-zjz/SparseViT),并計劃長期維護。該模型有望為圖像篡改檢測領域的理論與應用研究提供新視角。
總之,SparseViT 通過巧妙地利用語義特征和非語義特征的差異,為圖像篡改定位提供了一種高效、準確且具有泛化能力的新方法。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...