視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

本文設(shè)計(jì)了一種新型的生成視頻傳播框架——GenProp

原標(biāo)題：視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：12204字

GenProp: 一種新型生成視頻傳播框架

本文介紹了一種名為GenProp的新型生成視頻傳播框架，該框架利用圖像到視頻（I2V）生成模型的能力，實(shí)現(xiàn)多種視頻編輯任務(wù)，例如物體移除、插入和跟蹤等。

1. 問(wèn)題與挑戰(zhàn)

現(xiàn)有的視頻生成模型通常專(zhuān)注于單一任務(wù)，且傳統(tǒng)的視頻傳播方法容易受錯(cuò)誤累積影響，缺乏魯棒性和泛化能力。GenProp旨在解決這些問(wèn)題，并克服生成視頻傳播過(guò)程中的三個(gè)關(guān)鍵挑戰(zhàn)：真實(shí)性（第一幀變化自然傳播）、一致性（其他區(qū)域與原始視頻一致）、通用性（適用于多種視頻任務(wù)）。

2. GenProp框架設(shè)計(jì)

GenProp的核心思想是利用I2V模型將第一幀的編輯傳播到整個(gè)視頻。為了確保編輯的真實(shí)性和一致性，GenProp引入了兩個(gè)關(guān)鍵組件：

選擇性?xún)?nèi)容編碼器 (SCE): SCE選擇性地編碼未編輯區(qū)域的內(nèi)容，避免對(duì)已修改區(qū)域的編碼干擾，從而增強(qiáng)未編輯內(nèi)容的保真度。
掩碼預(yù)測(cè)解碼器 (MPD): MPD預(yù)測(cè)需要編輯的空間區(qū)域，幫助SCE區(qū)分修改區(qū)域和未修改區(qū)域。

此外，GenProp還設(shè)計(jì)了區(qū)域感知損失函數(shù)，平衡編輯區(qū)域和未編輯區(qū)域的損失，并利用合成數(shù)據(jù)進(jìn)行訓(xùn)練，提高模型的泛化能力。合成數(shù)據(jù)通過(guò)對(duì)現(xiàn)有視頻實(shí)例分割數(shù)據(jù)集進(jìn)行增強(qiáng)生成，涵蓋多種視頻編輯任務(wù)。

3. 實(shí)驗(yàn)結(jié)果與分析

GenProp在視頻編輯、物體移除和物體跟蹤任務(wù)上均取得了優(yōu)于現(xiàn)有方法的成果。實(shí)驗(yàn)結(jié)果表明：

視頻編輯： GenProp在物體替換、插入和背景替換等任務(wù)中表現(xiàn)出色，尤其是在具有顯著形狀變化的復(fù)雜場(chǎng)景中。
物體移除： GenProp能夠有效移除物體及其相關(guān)效果（如陰影、反射），且不需要密集的遮罩注釋。
物體跟蹤： GenProp能夠精確跟蹤物體及其相關(guān)效果，即使在物體發(fā)生反射和遮擋的情況下也能保持穩(wěn)定。

定量和定性評(píng)估結(jié)果均證實(shí)了GenProp的優(yōu)越性能。消融實(shí)驗(yàn)也驗(yàn)證了SCE、MPD和區(qū)域感知損失函數(shù)的有效性。

4. 結(jié)論與未來(lái)工作

GenProp提出了一種新穎的生成視頻傳播框架，利用I2V模型實(shí)現(xiàn)了多種視頻編輯任務(wù)，并取得了顯著的成果。未來(lái)工作將集中在支持多關(guān)鍵幀編輯和探索更多可支持的視頻任務(wù)上。

(注意：文章開(kāi)頭關(guān)于自動(dòng)駕駛峰會(huì)的預(yù)告與GenProp論文內(nèi)容無(wú)關(guān)，已在總結(jié)中忽略。)

聯(lián)系作者

文章來(lái)源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下公眾號(hào)之一，深入關(guān)注大模型與AI智能體，及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動(dòng)態(tài)# GenProp應(yīng)用場(chǎng)景 # 統(tǒng)一視頻生成傳播框架 # 視頻生成擴(kuò)散模型 # 跨模態(tài)視頻生成 # 高保真視頻生成

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

本文設(shè)計(jì)了一種新型的生成視頻傳播框架——GenProp

GenProp: 一種新型生成視頻傳播框架

1. 問(wèn)題與挑戰(zhàn)

2. GenProp框架設(shè)計(jì)

3. 實(shí)驗(yàn)結(jié)果與分析

4. 結(jié)論與未來(lái)工作

聯(lián)系作者

清華開(kāi)源GaussianWorld：基于高斯世界模型的3D占用預(yù)測(cè)模型 | 一作左思成博士主講預(yù)告

深圳人形機(jī)器人街邊溜達(dá)爆火海外！超自然步態(tài)大步流星十幾米，“成本10萬(wàn)內(nèi)、兩月后商用”

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？