完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具
Open-Sora 代表了開源視頻生成領(lǐng)域的一次重大進(jìn)步
原標(biāo)題:完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):12894字
Open-Sora:開源高效視頻生成模型
本文總結(jié)了Open-Sora開源視頻生成模型的研發(fā)成果,該模型能夠支持文本生成圖像、文本生成視頻以及圖像生成視頻等多種視覺生成任務(wù)。其核心在于高效的空間-時(shí)間擴(kuò)散Transformer (STDiT)框架,通過解耦空間與時(shí)間的注意力機(jī)制,并結(jié)合高度壓縮的3D自編碼器,顯著提升了訓(xùn)練效率和生成質(zhì)量。
1. 解決的問題與提出的方案
現(xiàn)有的視頻生成模型在高保真視頻內(nèi)容生成、靈活視頻合成及長(zhǎng)時(shí)間視頻生成方面存在諸多挑戰(zhàn)。Open-Sora旨在解決這些問題,它是一個(gè)開源的視頻生成模型,支持多種視覺生成任務(wù)。通過STDiT框架解耦空間和時(shí)間注意力,并利用3D自編碼器壓縮表示,加速了訓(xùn)練過程。此外,項(xiàng)目還提供完整的訓(xùn)練代碼、模型權(quán)重及數(shù)據(jù)處理工具,方便社區(qū)發(fā)展。
2. 數(shù)據(jù)與預(yù)處理
Open-Sora使用了多個(gè)開源數(shù)據(jù)集,包括Webvid-10M、Panda-70M、HD-VG-130M、MiraData、Vript、Inter4K以及來自Pexels、Pixabay和Mixkit的視頻,以及LAION和Unsplash-lite圖像數(shù)據(jù)集??傆?jì)包含3000萬個(gè)視頻片段,總時(shí)長(zhǎng)達(dá)8萬小時(shí)。為了確保數(shù)據(jù)質(zhì)量,建立了一套完整的數(shù)據(jù)處理pipeline,包括場(chǎng)景檢測(cè)與視頻剪輯、高質(zhì)量視頻過濾(基于美學(xué)評(píng)分和光流評(píng)分)、文本場(chǎng)景過濾以及視頻字幕生成(使用GPT-4V和PLLaVA)。
3. 模型架構(gòu)
Open-Sora的架構(gòu)基于PixArt,采用T5文本編碼器和STDiT框架。3D自編碼器用于視頻壓縮,Open-Sora 1.2版本引入了一個(gè)受OpenAI Sora啟發(fā)的視頻壓縮網(wǎng)絡(luò),在時(shí)間維度上實(shí)現(xiàn)了4倍壓縮,提升了視頻生成流暢性。模型使用了定制化的訓(xùn)練策略,包括多階段訓(xùn)練和基于分桶的策略,以應(yīng)對(duì)不同分辨率和長(zhǎng)寬比的視頻。
4. 訓(xùn)練策略與細(xì)節(jié)
Open-Sora的訓(xùn)練過程分為三個(gè)階段:第一階段使用Webvid-10M數(shù)據(jù)集進(jìn)行初步訓(xùn)練;第二階段使用Panda-70M數(shù)據(jù)集進(jìn)行精細(xì)化訓(xùn)練;第三階段使用高質(zhì)量視頻數(shù)據(jù)集進(jìn)行高分辨率訓(xùn)練。訓(xùn)練過程中,采用了多種優(yōu)化策略,例如身份損失、混合視頻長(zhǎng)度訓(xùn)練、隨機(jī)遮罩策略以及QK正則化等,以提升模型性能和訓(xùn)練效率。最終模型能夠生成最長(zhǎng)15秒、分辨率最高720p的視頻。
5. 模型適配與性能提升
Open-Sora從PixArt-Σ 2K checkpoint開始進(jìn)行模型適配,通過多個(gè)階段的微調(diào),最終實(shí)現(xiàn)了高效的視頻生成。適配過程包括多分辨率圖像生成訓(xùn)練、QK正則化、修正流、logit-norm采樣以及新VAE的引入,顯著提升了訓(xùn)練和推理效率,并增強(qiáng)了模型的穩(wěn)定性。最終模型在VBench分?jǐn)?shù)上達(dá)到行業(yè)領(lǐng)先水平。
6. 結(jié)論
Open-Sora是一個(gè)具有里程碑意義的開源視頻生成模型,它提供了全面的框架、高質(zhì)量的數(shù)據(jù)處理工具和預(yù)訓(xùn)練模型權(quán)重,并成功復(fù)現(xiàn)了Sora報(bào)告中的關(guān)鍵技術(shù),實(shí)現(xiàn)了高質(zhì)量、長(zhǎng)時(shí)長(zhǎng)的視頻生成。該項(xiàng)目推動(dòng)了社區(qū)發(fā)展,并為該領(lǐng)域未來的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。