Open-Sora 2.0 – 潞晨科技開源的AI視頻生成模型
Open-Sora 2.0 是潞晨科技推出的一款先進開源視頻生成模型,具備業界領先的性能表現。該模型以 11B 參數規模,僅花費 20 萬美元(224 張 GPU)進行訓練,顯著降低了傳統視頻生成模型的訓練成本。Open-Sora 2.0 在 VBench 和用戶偏好測試中表現出色,其性能甚至超越了 HunyuanVideo 和 30B 參數的 Step-Video 等主流閉源模型。
Open-Sora 2.0是什么
Open-Sora 2.0 是潞晨科技全新推出的開源視頻生成模型,以其卓越的性能和顯著的成本效益而聞名。通過使用 20 萬美元的投資和 224 張 GPU,成功訓練出 11B 參數的商業級模型。該模型在多項測試中表現優異,與高成本的閉源模型相媲美,甚至在某些方面超越它們。Open-Sora 2.0 采用了先進的 3D 自編碼器、全注意力機制以及 MMDiT 架構,結合高效的并行訓練方式和高壓縮比自編碼器,大幅提升了訓練效率和推理速度。
Open-Sora 2.0的主要功能
- 高質量視頻生成:能夠生成 720p 分辨率、24 FPS 的流暢視頻,支持多種場景和風格,無論是自然風光還是復雜動態場景都能表現出色。
- 動作幅度可控:用戶可以根據需求調整視頻中人物或物體的動作幅度,實現更細膩、精準的動態表現。
- 文本到視頻(T2V)生成:支持通過文本描述直接生成相應的視頻內容,滿足創意視頻制作和內容生成的需求。
- 圖像到視頻(I2V)生成:結合開源圖像模型,可以基于圖像生成視頻,進一步提升生成效果和多樣性。
Open-Sora 2.0的技術原理
- 模型架構:基于三維自編碼器,能夠高效處理視頻數據,捕捉時間維度上的動態信息;引入全注意力機制,提升視頻生成的時空一致性;結合多模態擴散(MMDiT)架構,更精準地捕捉文本與視頻內容的關聯。
- 高壓縮比自編碼器:通過 4×32×32 的高壓縮比自編碼器,顯著降低推理成本。
- 高效訓練方法:采用多階段、多層次的數據篩選機制,以確保高質量數據輸入,提升訓練效率。模型優先在低分辨率下訓練,逐步提升分辨率,大幅降低計算開銷。
- 并行訓練與優化:利用 ColossalAI 和系統級優化,提高計算資源利用率,確保訓練效率最大化。
- 模型初始化與蒸餾:借助開源圖生視頻模型 FLUX 進行初始化,降低訓練成本,并利用蒸餾優化策略提升自編碼器特征空間的表達能力。
Open-Sora 2.0的性能表現
- 媲美 HunyuanVideo 和 30B Step-Video:Open-Sora 2.0 憑借僅 11B 參數規模,在 VBench 和用戶偏好測試中表現出色,與高成本開發的主流閉源大模型相當。
- 用戶偏好評測:在視覺表現、文本一致性和動作表現等關鍵維度中,Open-Sora 2.0 在多個指標上超越了開源 SOTA 模型 HunyuanVideo 和商業模型 Runway Gen-3 Alpha。
- VBench 指標表現強勢:根據視頻生成權威榜單 VBench 的評測結果,Open-Sora 2.0 的性能表現極為出色,幾乎實現與行業領先的閉源模型之間的性能對齊。
Open-Sora 2.0的項目地址
- GitHub倉庫:https://github.com/hpcaitech/Open-Sora
- 技術論文:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2
Open-Sora 2.0的生成效果
- 提示詞:A tomato surfing on a piece of lettuce down a waterfall of ranch dressing, with exaggerated surfing moves and creamy wave effects to highlight the 3D animated fun.(一顆番茄在一片生菜上沖浪,順著牧場醬汁的瀑布而下,夸張的沖浪動作和柔滑的波浪效果凸顯了 3D 動畫的樂趣。)
- 提示詞:A drone camera circles a historic church on a rocky outcrop along the Amalfi Coast, highlighting its stunning architecture, tiered patios, and the dramatic coastal views with waves crashing below and people enjoying the scene in the warm afternoon light.(一架無人機攝像機圍繞著阿馬爾菲海岸巖石露頭上的一座歷史悠久的教堂飛行,突顯了其令人驚嘆的建筑、分層的庭院和壯觀的海岸景色,海浪拍打在教堂下方,人們在溫暖的午后陽光下欣賞著這美麗的景色。)
- 提示詞:A scene from disaster movie.(災難片中的場景。)
- 提示詞:Chinese ancient style, realism. A young woman, dressed in an embroidered red qipao, walks along the ancient streets of a bustling Chinese town. The red lanterns hanging above her sway gently in the evening breeze, and her calm, confident stride contrasts with the lively atmosphere of merchants and performers around her.(中國古風寫實。一位身著繡花紅旗袍的年輕女子走在繁華的中國小鎮的古道上。頭頂上懸掛的紅燈籠在晚風中輕輕搖曳,她從容自信的步伐與周圍商販和藝人的熱鬧氛圍形成鮮明對比。)
如何使用Open-Sora 2.0
- 從源代碼安裝:
- 創建虛擬環境(推薦使用 Conda):
conda create -n opensora python=3.9
conda activate opensora
-
- 克隆倉庫:
git clone https://github.com/hpcaitech/Open-Sora
cd Open-Sora
-
- 安裝依賴:
- 根據你的 CUDA 版本(例如 CUDA 12.1),安裝基礎依賴:
- 安裝依賴:
pip install -r requirements/requirements-cu121.txt
-
-
- 安裝項目:
-
pip install -v . # 或使用開發模式:pip install -v -e .
-
-
- 安裝加速相關的依賴(可選,但推薦):
-
pip install git+https://github.com/hpcaitech/TensorNVMe.git
pip install git+https://github.com/hpcaitech/ColossalAI.git
pip install packaging ninja
pip install flash-attn --no-build-isolation
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.git
- 使用 Docker 安裝:
- 構建 Docker 鏡像:
docker build -t opensora .
-
- 運行 Docker 容器(確保掛載 GPU 和工作目錄):
docker run -ti --gpus all -v .:/workspace/Open-Sora opensora
Open-Sora 2.0的應用場景
- 頻制作:快速高效地生成廣告、動畫等創意視頻,降作成本。
- 影視后期:輔助生成特效鏡頭和虛擬場景,提升制作效率。
- 教育領域:生成教育視頻,增強教學的趣味性和效果。
- 游戲開發:應用于生成游戲動畫和虛擬場景,豐富游戲內容。
- VR/AR 應用:構建沉浸式虛擬場景,提升用戶體驗。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...