TPAMI-2024 | Uni-AdaFocus視頻理解框架,讓AI學會「劃重點」,計算效率提升4-23倍!
實現(xiàn)了降低時間、空間、樣本冗余性的統(tǒng)一建模
原標題:TPAMI-2024 | Uni-AdaFocus視頻理解框架,讓AI學會「劃重點」,計算效率提升4-23倍!
文章來源:機器之心
內容字數(shù):4995字
機器之心AIxiv專欄推薦:高效視頻理解框架Uni-AdaFocus
本文介紹了近期被IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 錄用的一篇論文:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition。該論文提出了一種高效的視頻理解框架Uni-AdaFocus,其會議版本AdaFocus V1/V2/V3分別發(fā)表于ICCV-2021、CVPR-2022和ECCV-2022。代碼和預訓練模型已開源。
1. 研究背景與動機
隨著視頻數(shù)據(jù)量的式增長,高效的視頻理解技術至關重要。現(xiàn)有深度學習模型在處理視頻時計算開銷巨大,這主要源于視頻數(shù)據(jù)的時間和空間冗余性。Uni-AdaFocus 旨在解決這個問題。
2. Uni-AdaFocus的核心思想
Uni-AdaFocus的核心思想是通過統(tǒng)一建模來降低時間、空間和樣本三個維度上的冗余性。具體而言:
降低時間冗余性:動態(tài)選擇關鍵幀,避免對所有幀進行處理。
降低空間冗余性:動態(tài)定位每一幀中的關鍵區(qū)域,集中計算資源。
降低樣本冗余性:根據(jù)樣本難度差異化分配計算資源,優(yōu)先處理困難樣本。
Uni-AdaFocus巧妙地利用數(shù)學方法解決了時空動態(tài)計算的不可微分問題,實現(xiàn)了高效的端到端訓練,無需復雜的強化學習。
3. 模型架構
Uni-AdaFocus采用了一個三階段架構:首先,輕量級全局編碼器提取視頻的全局特征;然后,策略網(wǎng)絡根據(jù)全局特征選擇關鍵幀和關鍵區(qū)域;最后,高容量局部編碼器處理選擇的區(qū)域,并結合全局特征進行最終分類。通過早退機制進一步優(yōu)化樣本維度上的計算。
4. 實驗結果
實驗結果表明,Uni-AdaFocus在多個數(shù)據(jù)集(ActivityNet,F(xiàn)CVID,Mini-Kinetics,Something-Something-V1&V2,Jester,Kinetics-400)和應用場景(阿爾茲海默癥和帕金森綜合征診斷、細粒度跳水動作識別、不良視頻檢測)上均取得了顯著的性能提升和加速效果。與現(xiàn)有最佳方法相比,Uni-AdaFocus在長視頻理解上加速了5倍,并能兼容多種骨干網(wǎng)絡,例如TSM和X3D,分別實現(xiàn)約4倍的加速,同時保持甚至提升了準確率。在某些情況下,Uni-AdaFocus可實現(xiàn)高達23倍的推理加速或7.7%的準確率提升,CPU/GPU實測結果與理論結果高度一致。
5. 總結
Uni-AdaFocus是一個高效且通用的視頻理解框架,它通過統(tǒng)一建模降低了視頻數(shù)據(jù)的時間、空間和樣本冗余性,實現(xiàn)了顯著的性能提升和計算效率的提高。其開源的代碼和預訓練模型為視頻理解領域的研究和應用提供了 valuable 的工具。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺