国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<rt id="oeiya"></rt>

SkyReels-V2

AI工具8個月前更新 AI工具集

64 0 0

SkyReels-V2 – 昆侖萬維開源的無限時長電影生成模型

SkyReels-V2

SkyReels-V2是什么

SkyReels-V2是由昆侖萬維的SkyReels團隊研發的一款無限時長的電影生成模型。該模型采用了擴散（Diffusion-forcing）框架，并結合了多模態大語言模型（MLLM）、多階段預訓練以及強化學習等先進技術，能夠生成高質量且長度不受限制的視頻內容。SkyReels-V2有效解決了當前技術在提示詞遵循、視覺質量、動態和視頻時長協調等方面的諸多挑戰，支持多種應用場景，包括故事生成、圖像轉視頻合成、攝像導演功能以及多主體一致性視頻生成等。該模型及其相關代碼已開源，為創意內容制作和虛擬仿真領域提供了強大的支持工具。

SkyReels-V2的主要功能

無限時長視頻生成：該模型能夠生成理論上無限時長的視頻內容，打破了傳統視頻生成模型在時長上的限制。
故事生成：依據敘事文本提示，編排復雜的多動作序列，從而實現動態敘事效果。
圖像轉視頻合成：提供兩種轉換方法，包括微調全序列文本到視頻擴散模型（SkyReels-V2-I2V）和擴散模型結合幀條件（SkyReels-V2-DF），將靜態圖像轉變為連貫的視頻。
攝像導演功能：能夠生成流暢且多樣的攝像機效果，提升視頻的藝術表現力。
元素到視頻生成：可將任意視覺元素（如人物、物體和背景）結合成由文本提示引導的連貫視頻，適用于短劇、音樂視頻和虛擬電商內容創作等。

SkyReels-V2的技術原理

多模態大語言模型（MLLM）：利用多模態大語言模型生成視頻的初始描述，并結合子專家模型（如鏡頭類型、角度、位置、表情和攝像機等），提供更詳盡的鏡頭語言描述，從而顯著提升生成視頻的提示詞遵循能力。
多階段預訓練：
- 漸進式分辨率預訓練：從低分辨率（256p）逐步提升至高分辨率（720p），增強模型的生成能力。
- 多階段后訓練優化：包括初始概念平衡的監督微調（SFT）、特定的強化學習（RL）訓練、擴散框架（DF）訓練和高質量SFT，確保模型在多個方面達到最佳性能。
強化學習（Reinforcement Learning， RL）：通過強化學習優化質量，解決現有模型在動態性、流暢性和物理合理性方面的不足。采用半自動數據收集管道生成偏好對比數據對，訓練獎勵模型并進行直接偏好優化（DPO），提升表現。
擴散框架（Diffusion Forcing）：為每一幀分配的噪聲水平，從而實現視頻生成的無限擴展能力。通過非遞減噪聲時間表，將連續幀的去噪時間表搜索空間從_O_(1 e 48)降低至_O_(1 e 32)，顯著提升生成效率。
高效的數據處理與優化：整合通用數據集、自收集媒體和藝術資源庫，經過多階段過濾和標注，以確保訓練數據的質量。利用FP8量化、多GPU并行和模型蒸餾等技術，大幅減少推理時間和計算成本，提高模型的實用性。