SkyReels-V2 – 昆侖萬維開源的無限時長電影生成模型
SkyReels-V2是什么
SkyReels-V2是由昆侖萬維的SkyReels團(tuán)隊研發(fā)的一款無限時長的電影生成模型。該模型采用了擴(kuò)散(Diffusion-forcing)框架,并結(jié)合了多模態(tài)大語言模型(MLLM)、多階段預(yù)訓(xùn)練以及強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù),能夠生成高質(zhì)量且長度不受限制的視頻內(nèi)容。SkyReels-V2有效解決了當(dāng)前技術(shù)在提示詞遵循、視覺質(zhì)量、動態(tài)和視頻時長協(xié)調(diào)等方面的諸多挑戰(zhàn),支持多種應(yīng)用場景,包括故事生成、圖像轉(zhuǎn)視頻合成、攝像導(dǎo)演功能以及多主體一致性視頻生成等。該模型及其相關(guān)代碼已開源,為創(chuàng)意內(nèi)容制作和虛擬仿真領(lǐng)域提供了強(qiáng)大的支持工具。
SkyReels-V2的主要功能
- 無限時長視頻生成:該模型能夠生成理論上無限時長的視頻內(nèi)容,打破了傳統(tǒng)視頻生成模型在時長上的限制。
- 故事生成:依據(jù)敘事文本提示,編排復(fù)雜的多動作序列,從而實現(xiàn)動態(tài)敘事效果。
- 圖像轉(zhuǎn)視頻合成:提供兩種轉(zhuǎn)換方法,包括微調(diào)全序列文本到視頻擴(kuò)散模型(SkyReels-V2-I2V)和擴(kuò)散模型結(jié)合幀條件(SkyReels-V2-DF),將靜態(tài)圖像轉(zhuǎn)變?yōu)檫B貫的視頻。
- 攝像導(dǎo)演功能:能夠生成流暢且多樣的攝像機(jī)效果,提升視頻的藝術(shù)表現(xiàn)力。
- 元素到視頻生成:可將任意視覺元素(如人物、物體和背景)結(jié)合成由文本提示引導(dǎo)的連貫視頻,適用于短劇、音樂視頻和虛擬電商內(nèi)容創(chuàng)作等。
SkyReels-V2的技術(shù)原理
- 多模態(tài)大語言模型(MLLM):利用多模態(tài)大語言模型生成視頻的初始描述,并結(jié)合子專家模型(如鏡頭類型、角度、位置、表情和攝像機(jī)等),提供更詳盡的鏡頭語言描述,從而顯著提升生成視頻的提示詞遵循能力。
- 多階段預(yù)訓(xùn)練:
- 漸進(jìn)式分辨率預(yù)訓(xùn)練:從低分辨率(256p)逐步提升至高分辨率(720p),增強(qiáng)模型的生成能力。
- 多階段后訓(xùn)練優(yōu)化:包括初始概念平衡的監(jiān)督微調(diào)(SFT)、特定的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練、擴(kuò)散框架(DF)訓(xùn)練和高質(zhì)量SFT,確保模型在多個方面達(dá)到最佳性能。
- 強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL):通過強(qiáng)化學(xué)習(xí)優(yōu)化質(zhì)量,解決現(xiàn)有模型在動態(tài)性、流暢性和物理合理性方面的不足。采用半自動數(shù)據(jù)收集管道生成偏好對比數(shù)據(jù)對,訓(xùn)練獎勵模型并進(jìn)行直接偏好優(yōu)化(DPO),提升表現(xiàn)。
- 擴(kuò)散框架(Diffusion Forcing):為每一幀分配的噪聲水平,從而實現(xiàn)視頻生成的無限擴(kuò)展能力。通過非遞減噪聲時間表,將連續(xù)幀的去噪時間表搜索空間從_O_(1 e 48)降低至_O_(1 e 32),顯著提升生成效率。
- 高效的數(shù)據(jù)處理與優(yōu)化:整合通用數(shù)據(jù)集、自收集媒體和藝術(shù)資源庫,經(jīng)過多階段過濾和標(biāo)注,以確保訓(xùn)練數(shù)據(jù)的質(zhì)量。利用FP8量化、多GPU并行和模型蒸餾等技術(shù),大幅減少推理時間和計算成本,提高模型的實用性。
SkyReels-V2的項目地址
- GitHub倉庫:https://github.com/SkyworkAI/SkyReels-V2
- HuggingFace模型庫:https://huggingface.co/collections/Skywork/skyreels-v2
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.13074
SkyReels-V2的應(yīng)用場景
- 電影制作:生成無限時長的連貫視頻,適合復(fù)雜敘事和長鏡頭創(chuàng)作。
- 廣告創(chuàng)作:將靜態(tài)圖片轉(zhuǎn)化為動態(tài)視頻,提升廣告的吸引力與表現(xiàn)力。
- 視頻拍攝輔助:生成流暢的攝像機(jī)效果,幫助設(shè)計與實現(xiàn)復(fù)雜的拍攝鏡頭。
- 短劇與音樂視頻:快速生成高質(zhì)量視頻,降低拍攝成本與時間。
- 虛擬現(xiàn)實與游戲開發(fā):生成逼真的虛擬場景與角色動畫,提升用戶體驗與沉浸感。
常見問題
- SkyReels-V2是否可以用于商業(yè)用途?:是的,SkyReels-V2支持商業(yè)用途,但請遵循相關(guān)的開源許可協(xié)議。
- 生成視頻的質(zhì)量如何?:SkyReels-V2能夠生成高質(zhì)量的視頻內(nèi)容,尤其在敘事和動態(tài)效果方面表現(xiàn)出色。
- 如何獲取SkyReels-V2的使用指南?:您可以訪問我們的GitHub倉庫,那里提供了詳細(xì)的使用說明和示例代碼。
- 是否有技術(shù)支持?:我們提供社區(qū)支持,您可以在GitHub上提問或反饋問題。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...