国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

完整復現Sora，Open-Sora最新技術報告發布，提供完整訓練代碼、權重及數據處理工具

Open-Sora 代表了開源視頻生成領域的一次重大進步

完整復現Sora，Open-Sora最新技術報告發布，提供完整訓練代碼、權重及數據處理工具

原標題：完整復現Sora，Open-Sora最新技術報告發布，提供完整訓練代碼、權重及數據處理工具
文章來源：智猩猩GenAI
內容字數：12894字

Open-Sora：開源高效視頻生成模型

本文總結了Open-Sora開源視頻生成模型的研發成果，該模型能夠支持文本生成圖像、文本生成視頻以及圖像生成視頻等多種視覺生成任務。其核心在于高效的空間-時間擴散Transformer (STDiT)框架，通過解耦空間與時間的注意力機制，并結合高度壓縮的3D自編碼器，顯著提升了訓練效率和生成質量。

1. 解決的問題與提出的方案

現有的視頻生成模型在高保真視頻內容生成、靈活視頻合成及長時間視頻生成方面存在諸多挑戰。Open-Sora旨在解決這些問題，它是一個開源的視頻生成模型，支持多種視覺生成任務。通過STDiT框架解耦空間和時間注意力，并利用3D自編碼器壓縮表示，加速了訓練過程。此外，項目還提供完整的訓練代碼、模型權重及數據處理工具，方便社區發展。

2. 數據與預處理

Open-Sora使用了多個開源數據集，包括Webvid-10M、Panda-70M、HD-VG-130M、MiraData、Vript、Inter4K以及來自Pexels、Pixabay和Mixkit的視頻，以及LAION和Unsplash-lite圖像數據集。總計包含3000萬個視頻片段，總時長達8萬小時。為了確保數據質量，建立了一套完整的數據處理pipeline，包括場景檢測與視頻剪輯、高質量視頻過濾（基于美學評分和光流評分）、文本場景過濾以及視頻字幕生成（使用GPT-4V和PLLaVA）。

3. 模型架構

Open-Sora的架構基于PixArt，采用T5文本編碼器和STDiT框架。3D自編碼器用于視頻壓縮，Open-Sora 1.2版本引入了一個受OpenAI Sora啟發的視頻壓縮網絡，在時間維度上實現了4倍壓縮，提升了視頻生成流暢性。模型使用了定制化的訓練策略，包括多階段訓練和基于分桶的策略，以應對不同分辨率和長寬比的視頻。

4. 訓練策略與細節

Open-Sora的訓練過程分為三個階段：第一階段使用Webvid-10M數據集進行初步訓練；第二階段使用Panda-70M數據集進行精細化訓練；第三階段使用高質量視頻數據集進行高分辨率訓練。訓練過程中，采用了多種優化策略，例如身份損失、混合視頻長度訓練、隨機遮罩策略以及QK正則化等，以提升模型性能和訓練效率。最終模型能夠生成最長15秒、分辨率最高720p的視頻。

5. 模型適配與性能提升

Open-Sora從PixArt-Σ 2K checkpoint開始進行模型適配，通過多個階段的微調，最終實現了高效的視頻生成。適配過程包括多分辨率圖像生成訓練、QK正則化、修正流、logit-norm采樣以及新VAE的引入，顯著提升了訓練和推理效率，并增強了模型的穩定性。最終模型在VBench分數上達到行業領先水平。