TPAMI-2024 | Uni-AdaFocus視頻理解框架，讓AI學會「劃重點」，計算效率提升4-23倍！

實現(xiàn)了降低時間、空間、樣本冗余性的統(tǒng)一建模

原標題：TPAMI-2024 | Uni-AdaFocus 視頻理解框架，讓AI學會「劃重點」，計算效率提升4-23倍！
文章來源：機器之心
內容字數(shù)：4995字

機器之心AIxiv專欄推薦：高效視頻理解框架Uni-AdaFocus

本文介紹了近期被IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 錄用的一篇論文：Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition。該論文提出了一種高效的視頻理解框架Uni-AdaFocus，其會議版本AdaFocus V1/V2/V3分別發(fā)表于ICCV-2021、CVPR-2022和ECCV-2022。代碼和預訓練模型已開源。

1. 研究背景與動機

隨著視頻數(shù)據(jù)量的式增長，高效的視頻理解技術至關重要。現(xiàn)有深度學習模型在處理視頻時計算開銷巨大，這主要源于視頻數(shù)據(jù)的時間和空間冗余性。Uni-AdaFocus 旨在解決這個問題。

2. Uni-AdaFocus的核心思想

Uni-AdaFocus的核心思想是通過統(tǒng)一建模來降低時間、空間和樣本三個維度上的冗余性。具體而言：

降低時間冗余性：動態(tài)選擇關鍵幀，避免對所有幀進行處理。
降低空間冗余性：動態(tài)定位每一幀中的關鍵區(qū)域，集中計算資源。
降低樣本冗余性：根據(jù)樣本難度差異化分配計算資源，優(yōu)先處理困難樣本。

Uni-AdaFocus巧妙地利用數(shù)學方法解決了時空動態(tài)計算的不可微分問題，實現(xiàn)了高效的端到端訓練，無需復雜的強化學習。

3. 模型架構

Uni-AdaFocus采用了一個三階段架構：首先，輕量級全局編碼器提取視頻的全局特征；然后，策略網(wǎng)絡根據(jù)全局特征選擇關鍵幀和關鍵區(qū)域；最后，高容量局部編碼器處理選擇的區(qū)域，并結合全局特征進行最終分類。通過早退機制進一步優(yōu)化樣本維度上的計算。

4. 實驗結果

實驗結果表明，Uni-AdaFocus在多個數(shù)據(jù)集（ActivityNet，F(xiàn)CVID，Mini-Kinetics，Something-Something-V1&V2，Jester，Kinetics-400）和應用場景（阿爾茲海默癥和帕金森綜合征診斷、細粒度跳水動作識別、不良視頻檢測）上均取得了顯著的性能提升和加速效果。與現(xiàn)有最佳方法相比，Uni-AdaFocus在長視頻理解上加速了5倍，并能兼容多種骨干網(wǎng)絡，例如TSM和X3D，分別實現(xiàn)約4倍的加速，同時保持甚至提升了準確率。在某些情況下，Uni-AdaFocus可實現(xiàn)高達23倍的推理加速或7.7%的準確率提升，CPU/GPU實測結果與理論結果高度一致。