VideoCrafter2 是由騰訊AI實(shí)驗(yàn)室研發(fā)的一款創(chuàng)新視頻生成模型,旨在解決高質(zhì)量視頻數(shù)據(jù)獲取的難題。該模型的核心理念是將視頻生成過程分為(motion)和外觀(appearance)兩個主要部分,從而在缺乏高質(zhì)量視頻素材的情況下,依然能夠生成清晰且富有視覺沖擊力的視頻內(nèi)容。通過低質(zhì)量視頻確保的連貫性,同時利用高質(zhì)量圖像來提升生成視頻的畫面質(zhì)量。
什么是 VideoCrafter2?
VideoCrafter2是騰訊AI實(shí)驗(yàn)室推出的一種視頻生成模型,旨在應(yīng)對獲得高質(zhì)量視頻數(shù)據(jù)的挑戰(zhàn)。該模型通過解構(gòu)視頻生成過程,將其分為和外觀兩個部分,從而實(shí)現(xiàn)高質(zhì)量視頻的生成。它利用低質(zhì)量視頻來維護(hù)的一致性,并借助高質(zhì)量的圖像來確保視頻的畫面效果和概念的多樣性。
項(xiàng)目主頁:https://ailab-cvc.github.io/videocrafter2/
論文地址:https://arxiv.org/abs/2401.09047
GitHub代碼庫:https://github.com/AILab-CVC/VideoCrafter
Hugging Face Demo:https://huggingface.co/spaces/VideoCrafter/VideoCrafter2
主要功能
- 文本轉(zhuǎn)視頻:用戶只需輸入一段描述性的文本,VideoCrafter2便能根據(jù)該文本生成相應(yīng)的視頻。
- 高質(zhì)量視頻生成:該模型能夠創(chuàng)造出高分辨率和優(yōu)質(zhì)視覺效果的視頻,展現(xiàn)出豐富的細(xì)節(jié)和自然的表現(xiàn)。
- 美學(xué)效果提升:通過分開處理和外觀,VideoCrafter2在保持視頻連貫性的同時,也提升了清晰度、色彩飽和度等視覺效果。
- 概念組合:模型具備理解和組合復(fù)雜概念的能力,能夠生成包含多個現(xiàn)實(shí)或虛擬元素和場景的視頻。
- 多樣的藝術(shù)風(fēng)格:VideoCrafter2能夠模擬不同的藝術(shù)風(fēng)格,如賽博朋克、新波普等,給予視頻創(chuàng)作更多的創(chuàng)意空間。
工作原理
VideoCrafter2的工作依托于深度學(xué)習(xí)和擴(kuò)散模型的原理,通過以下幾個關(guān)鍵步驟實(shí)現(xiàn)從文本到視頻的生成:
- 數(shù)據(jù)解耦:將視頻內(nèi)容的生成分為和外觀兩個部分,前者負(fù)責(zé)物體的移動,后者關(guān)注圖像的清晰度和細(xì)節(jié)。
- 學(xué)習(xí):利用低質(zhì)量視頻數(shù)據(jù)集(如WebVid-10M)訓(xùn)練部分,確保生成視頻在上保持連貫。
- 外觀學(xué)習(xí):使用高質(zhì)量圖像數(shù)據(jù)集(如Midjourney生成的JDB圖像)訓(xùn)練外觀部分,以提升生成視頻的視覺質(zhì)量。
- 模型訓(xùn)練:聯(lián)合訓(xùn)練低質(zhì)量視頻和高分辨率圖像,初步建立基礎(chǔ)視頻模型,隨后通過微調(diào)外觀模塊進(jìn)一步提升畫質(zhì)。
- 增強(qiáng)概念組合能力:使用合成圖像數(shù)據(jù)集幫助模型學(xué)習(xí)如何融合不同元素和場景。
- 生成過程:根據(jù)文本提示,模型提取關(guān)鍵信息,結(jié)合和外觀知識逐幀生成完整視頻序列。
- 評估和優(yōu)化:通過定量和定性評估,如EvalCrafter基準(zhǔn)測試,評估生成視頻的質(zhì)量,并進(jìn)行后續(xù)優(yōu)化。
如何使用 VideoCrafter2
- 訪問VideoCrafter2的官方網(wǎng)站或Hugging Face空間,在用戶輸入框中輸入簡短的文本描述。
- 點(diǎn)擊“Expand Prompt”按鈕以生成更豐富的提示描述。
- 隨后點(diǎn)擊“Generate Videos”,系統(tǒng)會根據(jù)原始輸入和擴(kuò)展提示分別生成兩個視頻。
- 生成高清視頻的過程大約需要2-3分鐘。
應(yīng)用場景
VideoCrafter2可以廣泛應(yīng)用于影視制作、廣告創(chuàng)意、游戲開發(fā)、教育培訓(xùn)等多個領(lǐng)域,幫助創(chuàng)作者提升創(chuàng)意表達(dá)和視頻效果。
常見問題
1. VideoCrafter2支持哪些輸入格式?
用戶可以輸入文本描述,系統(tǒng)將根據(jù)描述生成視頻。
2. 生成視頻的時間是多久?
通常生成高清視頻需要2-3分鐘。
3. 如何獲取生成的視頻?
生成的視頻會顯示在頁面上,用戶可以進(jìn)行下載和分享。