ExVideo是一項(xiàng)由阿里巴巴與華東師范大學(xué)的研究團(tuán)隊(duì)共同開(kāi)發(fā)的視頻合成模型后調(diào)優(yōu)技術(shù),旨在擴(kuò)展現(xiàn)有模型的時(shí)間維度,從而生成更長(zhǎng)和幀數(shù)更多的視頻。基于Stable Video Diffusion模型,ExVideo能夠生成高達(dá)128幀的連貫視頻,同時(shí)有效保留原始模型的生成能力。這一技術(shù)特別適合計(jì)算資源有限的環(huán)境,因?yàn)樗ㄟ^(guò)優(yōu)化3D卷積、時(shí)間注意力機(jī)制和位置嵌入等技術(shù)模塊,顯著提高了視頻幀數(shù)并降低了訓(xùn)練成本。
ExVideo是什么
ExVideo是由阿里巴巴與華東師范大學(xué)的研究者共同開(kāi)發(fā)的一種先進(jìn)的視頻合成模型后調(diào)優(yōu)技術(shù)。它能夠在現(xiàn)有視頻合成模型的基礎(chǔ)上,擴(kuò)展時(shí)間尺度,生成更加豐富的長(zhǎng)視頻。該團(tuán)隊(duì)在Stable Video Diffusion模型的基礎(chǔ)上,訓(xùn)練出了一個(gè)能夠生成多達(dá)128幀的擴(kuò)展模型,同時(shí)保持了原始生成能力。ExVideo的設(shè)計(jì)通過(guò)優(yōu)化各種時(shí)間模塊,使得模型能夠處理更長(zhǎng)時(shí)間跨度的內(nèi)容,適合資源有限的情況。
主要功能
- 時(shí)間尺度擴(kuò)展:ExVideo的主要功能是擴(kuò)展視頻合成模型的時(shí)間尺度,使其能夠處理和生成比原始模型更長(zhǎng)的視頻序列,從而講述更復(fù)雜的故事或展示更長(zhǎng)時(shí)間的動(dòng)態(tài)場(chǎng)景。
- 后調(diào)優(yōu)策略:ExVideo的后調(diào)優(yōu)策略是其核心,通過(guò)對(duì)Stable Video Diffusion等模型的特定部分進(jìn)行再訓(xùn)練,ExVideo能夠生成128幀或更多的視頻,并保持對(duì)多種輸入的泛化能力,提升視頻的多樣性和適應(yīng)性。
- 高效參數(shù)使用:與傳統(tǒng)訓(xùn)練方法相比,ExVideo采用后調(diào)優(yōu)策略,無(wú)需重新訓(xùn)練整個(gè)模型,從而顯著減少參數(shù)數(shù)量和計(jì)算資源,提高了模型的擴(kuò)展效率。
- 生成質(zhì)量保持:ExVideo在延長(zhǎng)視頻長(zhǎng)度的同時(shí),確保生成視頻的質(zhì)量,所生成的視頻在視覺(jué)連貫性、清晰度和整體質(zhì)量上均達(dá)到較高標(biāo)準(zhǔn)。
- 兼容性與通用性:ExVideo的設(shè)計(jì)考慮到與多種視頻合成模型的兼容性,能夠廣泛應(yīng)用于不同的視頻生成任務(wù),提供相應(yīng)的擴(kuò)展策略以適應(yīng)不同的模型架構(gòu)。
產(chǎn)品官網(wǎng)
- 官方項(xiàng)目主頁(yè):https://ecnu-cilab.github.io/ExVideoProjectPage/
- GitHub代碼庫(kù):https://github.com/modelscope/DiffSynth-Studio
- Hugging Face模型下載:https://huggingface.co/ECNU-CILab/ExVideo-SVD-128f-v1
- ModelScope模型下載:https://www.modelscope.cn/models/ECNU-CILab/ExVideo-SVD-128f-v1/summary
- arXiv技術(shù)論文:https://arxiv.org/abs/2406.14130
應(yīng)用場(chǎng)景
ExVideo適用于多種視頻生成任務(wù),包括但不限于短視頻創(chuàng)作、動(dòng)畫(huà)制作、廣告視頻生成等。它的高效性和生成能力使其成為內(nèi)容創(chuàng)作者、廣告行業(yè)和教育領(lǐng)域等多個(gè)行業(yè)的理想選擇,幫助用戶(hù)生成更具吸引力和連貫性的視頻內(nèi)容。
常見(jiàn)問(wèn)題
- ExVideo的訓(xùn)練成本高嗎?
ExVideo采用后調(diào)優(yōu)策略,相比從頭訓(xùn)練模型,顯著降低了訓(xùn)練成本,特別適合計(jì)算資源有限的環(huán)境。 - 生成的視頻質(zhì)量如何?
ExVideo確保在擴(kuò)展視頻長(zhǎng)度的同時(shí),保持高質(zhì)量的生成,視頻在視覺(jué)連貫性和清晰度上都達(dá)到較高標(biāo)準(zhǔn)。 - 我可以在什么地方獲取ExVideo的模型?
ExVideo的模型可以通過(guò)Hugging Face和ModelScope等平臺(tái)進(jìn)行下載,具體鏈接可以在產(chǎn)品官網(wǎng)上找到。 - ExVideo支持哪些視頻合成模型?
ExVideo設(shè)計(jì)時(shí)考慮到與多種視頻合成模型的兼容性,能夠廣泛應(yīng)用于不同的模型架構(gòu)。