VideoPainter – 港中文聯(lián)合騰訊等機(jī)構(gòu)推出的視頻修復(fù)和編輯框架
VideoPainter 是一個(gè)由香港中文大學(xué)、騰訊 ARC Lab、東京大學(xué)和澳門大學(xué)等機(jī)構(gòu)共同開發(fā)的視頻修復(fù)與編輯框架,旨在處理任意長度的視頻內(nèi)容。其獨(dú)特之處在于采用雙分支架構(gòu),結(jié)合輕量級(jí)的上下文編碼器與預(yù)訓(xùn)練的擴(kuò)散模型,實(shí)現(xiàn)高效的背景保留和前景生成。此外,VideoPainter 引入了 ID 重采樣技術(shù),確保在長視頻中保持對(duì)象的一致性,并構(gòu)建了 VPData 和 VPBench 數(shù)據(jù)集,為大規(guī)模訓(xùn)練和評(píng)估提供支持。
VideoPainter是什么
VideoPainter 是一款專為視頻修復(fù)和編輯而設(shè)計(jì)的框架,能夠處理從短片段到長視頻的各種視頻內(nèi)容。該框架的雙分支架構(gòu)結(jié)合了輕量級(jí)上下文編碼器和預(yù)訓(xùn)練的擴(kuò)散模型,有效地保留背景并生成高質(zhì)量的前景。用戶可以根據(jù)個(gè)人需求靈活調(diào)整修復(fù)效果,支持插件式操作。同時(shí),VideoPainter 構(gòu)建了目前最大的視頻修復(fù)數(shù)據(jù)集 VPData 和 VPBench,包含超過39萬段視頻剪輯,為模型的訓(xùn)練和評(píng)估提供了堅(jiān)實(shí)的基礎(chǔ)。VideoPainter 在視頻質(zhì)量、掩碼區(qū)域保留和文本對(duì)齊等多個(gè)方面展現(xiàn)了卓越的性能,為視頻修復(fù)和編輯領(lǐng)域帶來了新的突破。
VideoPainter的主要功能
- 靈活的視頻修復(fù):能夠處理不同長度的視頻,修復(fù)被遮擋或損壞的部分。
- 背景與前景的高效生成:基于雙分支架構(gòu),確保背景的準(zhǔn)確保留和前景的優(yōu)質(zhì)生成。
- 文本驅(qū)動(dòng)的編輯功能:支持通過文本指令進(jìn)行視頻編輯,如添加、刪除或替換視頻中的元素。
- 對(duì)象一致性維護(hù):在長視頻中確保對(duì)象的身份持續(xù)一致,避免出現(xiàn)漂移或突變現(xiàn)象。
- 插件化控制選項(xiàng):與不同的擴(kuò)散模型或 LoRA(低秩適配)模型結(jié)合,滿足多樣化的視頻生成和編輯需求。
VideoPainter的技術(shù)原理
- 雙分支架構(gòu):
- 背景分支:通過輕量級(jí)上下文編碼器提取背景特征,并將其注入到預(yù)訓(xùn)練的擴(kuò)散模型中,以確保背景的連貫性。
- 前景分支:利用擴(kuò)散模型的生成能力,根據(jù)文本提示生成前景內(nèi)容,并與背景特征相結(jié)合,實(shí)現(xiàn)高質(zhì)量修復(fù)。
- 輕量級(jí)上下文編碼器:這個(gè)編碼器結(jié)構(gòu)簡單,僅包含兩層,占用主模型參數(shù)的6%,有效提取背景特征并以分組方式注入擴(kuò)散模型中,避免前景與背景信息混淆。
- ID重采樣技術(shù):在訓(xùn)練期間增強(qiáng)目標(biāo)區(qū)域的 ID 信息,以提高模型對(duì)修復(fù)區(qū)域的感知能力。在推理階段,將前一視頻片段的修復(fù)區(qū)域特征與當(dāng)前片段結(jié)合,確保長視頻中對(duì)象的一致性。
- 插件式控制:支持與不同的擴(kuò)散模型或 LoRA 模型結(jié)合,用戶可以根據(jù)需求選擇合適的模型進(jìn)行視頻修復(fù)或編輯,兼容文本到視頻(T2V)和圖像到視頻(I2V)擴(kuò)散模型,進(jìn)一步拓展應(yīng)用范圍。
- 大規(guī)模數(shù)據(jù)集構(gòu)建:借助先進(jìn)的視覺模型(如 SAM2、Grounding DINO 等),自動(dòng)生成精確的分割掩碼和詳細(xì)的文本描述,構(gòu)建VPData和VPBench,提供超過39萬段視頻剪輯,為大規(guī)模訓(xùn)練和評(píng)估奠定基礎(chǔ)。
VideoPainter的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://yxbian23.github.io/project/video-painter/
- GitHub倉庫:https://github.com/TencentARC/VideoPainter
- HuggingFace模型庫:https://huggingface.co/TencentARC/VideoPainter
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.05639
VideoPainter的應(yīng)用場(chǎng)景
- 影視修復(fù)與制作:用于修復(fù)老電影、電視劇中的損壞畫面,或添加特效、修改場(chǎng)景內(nèi)容。
- 廣告與營銷:快速生成高質(zhì)量視頻,進(jìn)行背景或道具的添加與替換,以實(shí)現(xiàn)個(gè)性化定制。
- 視頻創(chuàng)作與直播:實(shí)時(shí)修復(fù)視頻中的錯(cuò)誤或干擾,添加虛擬道具以提升視覺效果。
- 虛擬現(xiàn)實(shí)(VR)與增強(qiáng)現(xiàn)實(shí)(AR)應(yīng)用:生成沉浸式視頻內(nèi)容,修復(fù)或修改虛擬場(chǎng)景,增強(qiáng)用戶的現(xiàn)實(shí)感。
- 教育與培訓(xùn):制作教學(xué)視頻,修復(fù)古籍影像,添加虛擬設(shè)備或標(biāo)注,以增強(qiáng)教學(xué)效果。