AIGC動態歡迎閱讀
原標題:CNN、Transformer、Uniformer之外,我們終于有了更高效的視頻理解技術
關鍵字:視頻,本文,模型,性能,卷積
文章來源:機器之心
內容字數:6826字
內容摘要:
機器之心報道
編輯:Rome Rome視頻理解因大量時空冗余和復雜時空依賴,同時克服兩個問題難度巨大,CNN 和 Transformer 及 Uniformer 都難以勝任,Mamba 是個好思路,讓我們看看本文是如何創造視頻理解的 VideoMamba。視頻理解的核心目標在于對時空表示的把握,這存在兩個巨大挑戰:短視頻片段存在大量時空冗余和復雜的時空依賴關系。盡管曾經占主導地位的三維卷積神經網絡 (CNN) 和視頻 Transformer 通過利用局部卷積或長距離注意力有效地應對其中之一的挑戰,但它們在同時解決這兩個挑戰方面存在不足。UniFormer 試圖整合這兩種方法的優勢,但它在建模長視頻方面存在困難。
S4、RWKV 和 RetNet 等低成本方案在自然語言處理領域的出現,為視覺模型開辟了新的途徑。Mamba 憑借其選擇性狀態空間模型 (SSM) 脫穎而出,實現了在保持線性復雜性的同時促進長期動態建模的平衡。這種創新推動了它在視覺任務中的應用,正如 Vision Mamba 和 VMamba 所證實的那樣,它們利用多方向 SSM 來增強二維圖像處理。這些模型在性能上與基于注意
原文鏈接:CNN、Transformer、Uniformer之外,我們終于有了更高效的視頻理解技術
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...