Video Depth Anything引領(lǐng)超長(zhǎng)視頻深度估計(jì)最新SOTA!字節(jié)跳動(dòng)開源
旨在解決超長(zhǎng)視頻中的深度估計(jì)問題

原標(biāo)題:Video Depth Anything引領(lǐng)超長(zhǎng)視頻深度估計(jì)最新SOTA!字節(jié)跳動(dòng)開源
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):11928字
Video Depth Anything: 超長(zhǎng)視頻深度估計(jì)的新方法
本文介紹了一種名為Video Depth Anything (VDA) 的新方法,用于高效地估計(jì)任意長(zhǎng)度視頻的時(shí)間一致性深度。該方法在Depth Anything V2的基礎(chǔ)上進(jìn)行了改進(jìn),實(shí)現(xiàn)了在空間和時(shí)間上都達(dá)到最先進(jìn)水平的視頻深度估計(jì),同時(shí)保持了極高的計(jì)算效率。
1. 解決的問題
現(xiàn)有的單目深度估計(jì)方法,例如Depth Anything,在單個(gè)圖像上表現(xiàn)出色,但在視頻應(yīng)用中常常出現(xiàn)時(shí)間不一致性問題,影響了其實(shí)用性。雖然一些方法嘗試解決這個(gè)問題,但它們通常僅適用于短視頻,并且在質(zhì)量和計(jì)算效率之間難以取得平衡。VDA旨在解決超長(zhǎng)視頻的深度估計(jì)問題,克服現(xiàn)有方法的局限性。
2. 核心技術(shù)
VDA的核心改進(jìn)在于三個(gè)方面:
- 高效的時(shí)空頭 (STH): 用一個(gè)高效的時(shí)空頭替換Depth Anything V2的原有頭部,該時(shí)空頭基于多頭自注意力機(jī)制,能夠有效地捕捉視頻幀之間的時(shí)間關(guān)系,而無需額外的計(jì)算負(fù)擔(dān)。
- 時(shí)間梯度匹配損失 (TGM): 設(shè)計(jì)了一種新穎的時(shí)間一致性損失函數(shù)——TGM。與依賴光流的傳統(tǒng)方法不同,TGM直接比較相鄰幀相同位置的深度變化,避免了光流計(jì)算的額外開銷,并更有效地保證了時(shí)間一致性。
- 基于關(guān)鍵幀的超長(zhǎng)視頻推理策略: 提出了一種結(jié)合關(guān)鍵幀參考和重疊幀插值的策略,用于處理超長(zhǎng)視頻。該策略有效地減少了累積誤差,并保證了不同視頻片段之間的平滑過渡。
3. 實(shí)驗(yàn)結(jié)果
VDA在多個(gè)公開數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果表明:
- SOTA性能: 在長(zhǎng)視頻深度估計(jì)方面,VDA在幾何精度和時(shí)間一致性指標(biāo)上都超越了現(xiàn)有的方法,取得了新的SOTA。
- 高計(jì)算效率: VDA的前饋結(jié)構(gòu)和輕量級(jí)的時(shí)間模塊使其具有極高的計(jì)算效率,即使是最小模型也能達(dá)到30 FPS的實(shí)時(shí)性能。
- 零樣本泛化能力: VDA在零樣本視頻深度估計(jì)中也表現(xiàn)出色,證明了其強(qiáng)大的泛化能力。
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各個(gè)組件的有效性,特別是TGM損失函數(shù)和基于關(guān)鍵幀的推理策略對(duì)提升性能的關(guān)鍵作用。
4. 結(jié)論
Video Depth Anything提供了一種簡(jiǎn)單、高效且準(zhǔn)確的超長(zhǎng)視頻深度估計(jì)方法。其在SOTA性能、高計(jì)算效率和強(qiáng)大的泛化能力方面的優(yōu)勢(shì),使其在各種視頻應(yīng)用中具有巨大的潛力。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

粵公網(wǎng)安備 44011502001135號(hào)