圖森未來推出的圖生視頻大模型

產(chǎn)品名稱：Ruyi
產(chǎn)品簡介：Ruyi是圖森未來科技有限公司推出的圖生視頻大模型，專為在消費(fèi)級顯卡上運(yùn)行設(shè)計(jì)，支持多分辨率、多時(shí)長視頻生成，具備首幀、首尾幀控制、幅度控制和鏡頭控制等特性。Ruyi基于DiT架構(gòu)，由Casual VAE模塊和Diffusion Transformer組成，用在視頻數(shù)據(jù)壓縮和生成。
詳細(xì)介紹：

Ruyi是什么

Ruyi是圖森未來推出的圖生視頻大模型，專為在消費(fèi)級顯卡上運(yùn)行設(shè)計(jì)，支持多分辨率、多時(shí)長視頻生成，具備首幀、首尾幀控制、幅度控制和鏡頭控制等特性。Ruyi基于DiT架構(gòu)，由Casual VAE模塊和Diffusion Transformer組成，用在視頻數(shù)據(jù)壓縮和生成。Ruyi能降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和成本，是ACG愛好者和創(chuàng)作者的理想工具。目前圖森未來將Ruyi-Mini-7B版本正式開源。

圖森未來推出的圖生視頻大模型

Ruyi的主要功能

多分辨率、多時(shí)長生成：Ruyi支持從最小384×384到最大1024×1024分辨率的視頻生成，能處理任意長寬比，最長生成120幀/5秒的視頻。
首幀、首尾幀控制生成：基于最多5個(gè)起始幀和最多5個(gè)結(jié)束幀生成視頻，用循環(huán)疊加生成任意長度的視頻。
幅度控制：提供4檔幅度控制，方便用戶對整體畫面的變化程度進(jìn)行控制。
鏡頭控制：提供了上、下、左、右、靜止共5種鏡頭控制，增加視頻生成的靈活性。

Ruyi的技術(shù)原理

模型架構(gòu)：Ruyi基于DiT（Diffusion Model with Transformers）架構(gòu)，由兩部分組成：
- Casual VAE模塊：負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓。
- Diffusion Transformer：負(fù)責(zé)壓縮后的視頻生成。
壓縮與編碼：Casual VAE模塊將空間分辨率壓縮至1/8，時(shí)間分辨率壓縮至1/4，壓縮后每個(gè)像素由16位的BF16進(jìn)行表示。
位置編碼：DiT部分用3D full attention，在空間上使用2D RoPE（Rotary Positional Encoding）進(jìn)行位置編碼，時(shí)間上用sin_cos進(jìn)行位置編碼。
訓(xùn)練損失函數(shù)：最終的loss選用DDPM（Denoising Diffusion Probabilistic Models）進(jìn)行訓(xùn)練。
參數(shù)量與訓(xùn)練數(shù)據(jù)：模型的總參數(shù)量約為7.1B，用約200M視頻片段進(jìn)行訓(xùn)練。
訓(xùn)練階段：整個(gè)訓(xùn)練分為四個(gè)階段，從低分辨率預(yù)訓(xùn)練到高分辨率微調(diào)，逐步提升模型性能。

Ruyi的項(xiàng)目地址

GitHub倉庫：https://github.com/IamCreateAI/Ruyi-Models
HuggingFace模型庫：https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

Ruyi的應(yīng)用場景

動(dòng)畫預(yù)制：快速生成動(dòng)畫角色和場景的動(dòng)態(tài)演示，評估動(dòng)畫設(shè)計(jì)和故事流程。
游戲CG生成：在游戲開發(fā)中，自動(dòng)生成游戲宣傳視頻或游戲內(nèi)的動(dòng)態(tài)背景。
電影特效預(yù)覽：在電影制作中，幫助導(dǎo)演和特效團(tuán)隊(duì)預(yù)覽特效場景，優(yōu)化后期特效制作。
虛擬主播：生成虛擬主播的動(dòng)態(tài)視頻，用于直播、新聞播報(bào)或在線教育。
社交媒體內(nèi)容：為社交媒體平臺創(chuàng)建吸引人的動(dòng)態(tài)視頻內(nèi)容，提高用戶參與度和品牌曝光。

閱讀原文