產品名稱:Ruyi
產品簡介:Ruyi是圖森未來科技有限公司推出的圖生視頻大模型,專為在消費級顯卡上運行設計,支持多分辨率、多時長視頻生成,具備首幀、首尾幀控制、幅度控制和鏡頭控制等特性。Ruyi基于DiT架構,由Casual VAE模塊和Diffusion Transformer組成,用在視頻數據壓縮和生成。
詳細介紹:
Ruyi是什么
Ruyi是圖森未來推出的圖生視頻大模型,專為在消費級顯卡上運行設計,支持多分辨率、多時長視頻生成,具備首幀、首尾幀控制、幅度控制和鏡頭控制等特性。Ruyi基于DiT架構,由Casual VAE模塊和Diffusion Transformer組成,用在視頻數據壓縮和生成。Ruyi能降低動漫和游戲內容的開發周期和成本,是ACG愛好者和創作者的理想工具。目前圖森未來將Ruyi-Mini-7B版本正式開源。
Ruyi的主要功能
- 多分辨率、多時長生成:Ruyi支持從最小384×384到最大1024×1024分辨率的視頻生成,能處理任意長寬比,最長生成120幀/5秒的視頻。
- 首幀、首尾幀控制生成:基于最多5個起始幀和最多5個結束幀生成視頻,用循環疊加生成任意長度的視頻。
- 幅度控制:提供4檔幅度控制,方便用戶對整體畫面的變化程度進行控制。
- 鏡頭控制:提供了上、下、左、右、靜止共5種鏡頭控制,增加視頻生成的靈活性。
Ruyi的技術原理
- 模型架構:Ruyi基于DiT(Diffusion Model with Transformers)架構,由兩部分組成:
- Casual VAE模塊:負責視頻數據的壓縮和解壓。
- Diffusion Transformer:負責壓縮后的視頻生成。
- 壓縮與編碼:Casual VAE模塊將空間分辨率壓縮至1/8,時間分辨率壓縮至1/4,壓縮后每個像素由16位的BF16進行表示。
- 位置編碼:DiT部分用3D full attention,在空間上使用2D RoPE(Rotary Positional Encoding)進行位置編碼,時間上用sin_cos進行位置編碼。
- 訓練損失函數:最終的loss選用DDPM(Denoising Diffusion Probabilistic Models)進行訓練。
- 參數量與訓練數據:模型的總參數量約為7.1B,用約200M視頻片段進行訓練。
- 訓練階段:整個訓練分為四個階段,從低分辨率預訓練到高分辨率微調,逐步提升模型性能。
Ruyi的項目地址
- GitHub倉庫:https://github.com/IamCreateAI/Ruyi-Models
- HuggingFace模型庫:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
Ruyi的應用場景
- 動畫預制:快速生成動畫角色和場景的動態演示,評估動畫設計和故事流程。
- 游戲CG生成:在游戲開發中,自動生成游戲宣傳視頻或游戲內的動態背景。
- 電影特效預覽:在電影制作中,幫助導演和特效團隊預覽特效場景,優化后期特效制作。
- 虛擬主播:生成虛擬主播的動態視頻,用于直播、新聞播報或在線教育。
- 社交媒體內容:為社交媒體平臺創建吸引人的動態視頻內容,提高用戶參與度和品牌曝光。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...