CNN、Transformer、Uniformer之外,我們終于有了更高效的視頻理解技術(shù)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:CNN、Transformer、Uniformer之外,我們終于有了更高效的視頻理解技術(shù)
關(guān)鍵字:視頻,本文,模型,性能,卷積
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6826字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Rome Rome視頻理解因大量時(shí)空冗余和復(fù)雜時(shí)空依賴,同時(shí)克服兩個(gè)問題難度巨大,CNN 和 Transformer 及 Uniformer 都難以勝任,Mamba 是個(gè)好思路,讓我們看看本文是如何創(chuàng)造視頻理解的 VideoMamba。視頻理解的核心目標(biāo)在于對(duì)時(shí)空表示的把握,這存在兩個(gè)巨大挑戰(zhàn):短視頻片段存在大量時(shí)空冗余和復(fù)雜的時(shí)空依賴關(guān)系。盡管曾經(jīng)占主導(dǎo)地位的三維卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和視頻 Transformer 通過利用局部卷積或長距離注意力有效地應(yīng)對(duì)其中之一的挑戰(zhàn),但它們?cè)谕瑫r(shí)解決這兩個(gè)挑戰(zhàn)方面存在不足。UniFormer 試圖整合這兩種方法的優(yōu)勢,但它在建模長視頻方面存在困難。
S4、RWKV 和 RetNet 等低成本方案在自然語言處理領(lǐng)域的出現(xiàn),為視覺模型開辟了新的途徑。Mamba 憑借其選擇性狀態(tài)空間模型 (SSM) 脫穎而出,實(shí)現(xiàn)了在保持線性復(fù)雜性的同時(shí)促進(jìn)長期動(dòng)態(tài)建模的平衡。這種創(chuàng)新推動(dòng)了它在視覺任務(wù)中的應(yīng)用,正如 Vision Mamba 和 VMamba 所證實(shí)的那樣,它們利用多方向 SSM 來增強(qiáng)二維圖像處理。這些模型在性能上與基于注意
原文鏈接:CNN、Transformer、Uniformer之外,我們終于有了更高效的視頻理解技術(shù)
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)