AniSora

AniSora – B站開源的動漫視頻生成模型

AniSora

AniSora是什么

AniSora 是由嗶哩嗶哩推出的一款前沿動漫視頻生成模型，旨在實現(xiàn)一鍵式多種動漫風格的視頻創(chuàng)作。該模型涵蓋了豐富的內(nèi)容類型，包括番劇片段、國產(chǎn)動畫與虛擬主播（VTuber）內(nèi)容等。AniSora 擁有超過 1000 萬的高質(zhì)量文本視頻對，利用時空掩碼模塊，能夠?qū)崿F(xiàn)從圖像到視頻的生成、幀插值以及局部圖像引導(dǎo)等多種功能。此外，AniSora 提供了 948 段多樣化的動畫視頻作為基準數(shù)據(jù)集，以評估模型在角色一致性和一致性等方面的表現(xiàn)。

AniSora的主要功能

圖像轉(zhuǎn)視頻生成：根據(jù)單一圖片生成連貫的動畫視頻，適合將靜態(tài)畫面轉(zhuǎn)變?yōu)閯討B(tài)場景。
幀插值技術(shù)：支持關(guān)鍵幀的插值，生成中間幀以實現(xiàn)平滑過渡，顯著減少動畫制作中的手工繪制工作量。
局部圖像引導(dǎo)：允許用戶指定特定區(qū)域進行動畫生成，從而實現(xiàn)更細致的創(chuàng)作控制。
時空控制能力：結(jié)合時間與空間的控制特性，支持首幀、尾幀及多幀引導(dǎo)等多種創(chuàng)作方式，確保精準的動畫制作。
多樣化風格支持：能夠生成多種風格的動畫視頻，包括番劇、國產(chǎn)動畫、漫畫改編以及VTuber內(nèi)容，以滿足不同用戶的需求。

AniSora的技術(shù)原理

擴散模型（Diffusion Model）：基于擴散模型的架構(gòu)，逐步減少噪聲以生成高品質(zhì)的視頻內(nèi)容，特別適合處理復(fù)雜的時空數(shù)據(jù)。
時空掩碼模塊（Spatiotemporal Mask Module）：通過引入時空掩碼模塊，支持對生成過程中特定時間和空間區(qū)域的控制，如掩碼指定的幀或區(qū)域生成動畫，實現(xiàn)局部引導(dǎo)和關(guān)鍵幀插值等功能。
3D 因果變分自編碼器（3D Causal VAE）：用于對視頻的時空特征進行編碼和解碼，將視頻壓縮至低維潛在空間，降低計算復(fù)雜度，同時保留關(guān)鍵的時空信息。
Transformer架構(gòu)：結(jié)合Transformer的強大建模能力，利用注意力機制捕捉視頻中的復(fù)雜時空依賴關(guān)系，使模型能夠處理長序列數(shù)據(jù)，從而生成更連貫的視頻內(nèi)容。
監(jiān)督微調(diào)（Supervised Fine-Tuning）：在預(yù)訓練基礎(chǔ)上，利用大量動畫視頻數(shù)據(jù)進行監(jiān)督微調(diào)，以使模型更好地適應(yīng)動畫視頻生成任務(wù)。微調(diào)過程采用多種策略，如由弱到強的訓練策略和多任務(wù)學習，提升模型的泛化能力與生成質(zhì)量。
數(shù)據(jù)處理流水線：運用場景檢測、光學流分析和美學評分等技術(shù)，從大量原始動畫視頻中篩選出高質(zhì)量的訓練數(shù)據(jù)，確保訓練數(shù)據(jù)的質(zhì)量與多樣性，為模型性能的提升提供支持。