產(chǎn)品名稱:Ruyi
產(chǎn)品簡介:Ruyi是圖森未來科技有限公司推出的圖生視頻大模型,專為在消費(fèi)級顯卡上運(yùn)行設(shè)計(jì),支持多分辨率、多時(shí)長視頻生成,具備首幀、首尾幀控制、幅度控制和鏡頭控制等特性。Ruyi基于DiT架構(gòu),由Casual VAE模塊和Diffusion Transformer組成,用在視頻數(shù)據(jù)壓縮和生成。
詳細(xì)介紹:
Ruyi是什么
Ruyi是圖森未來推出的圖生視頻大模型,專為在消費(fèi)級顯卡上運(yùn)行設(shè)計(jì),支持多分辨率、多時(shí)長視頻生成,具備首幀、首尾幀控制、幅度控制和鏡頭控制等特性。Ruyi基于DiT架構(gòu),由Casual VAE模塊和Diffusion Transformer組成,用在視頻數(shù)據(jù)壓縮和生成。Ruyi能降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和成本,是ACG愛好者和創(chuàng)作者的理想工具。目前圖森未來將Ruyi-Mini-7B版本正式開源。
Ruyi的主要功能
- 多分辨率、多時(shí)長生成:Ruyi支持從最小384×384到最大1024×1024分辨率的視頻生成,能處理任意長寬比,最長生成120幀/5秒的視頻。
- 首幀、首尾幀控制生成:基于最多5個(gè)起始幀和最多5個(gè)結(jié)束幀生成視頻,用循環(huán)疊加生成任意長度的視頻。
- 幅度控制:提供4檔幅度控制,方便用戶對整體畫面的變化程度進(jìn)行控制。
- 鏡頭控制:提供了上、下、左、右、靜止共5種鏡頭控制,增加視頻生成的靈活性。
Ruyi的技術(shù)原理
- 模型架構(gòu):Ruyi基于DiT(Diffusion Model with Transformers)架構(gòu),由兩部分組成:
- Casual VAE模塊:負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓。
- Diffusion Transformer:負(fù)責(zé)壓縮后的視頻生成。
- 壓縮與編碼:Casual VAE模塊將空間分辨率壓縮至1/8,時(shí)間分辨率壓縮至1/4,壓縮后每個(gè)像素由16位的BF16進(jìn)行表示。
- 位置編碼:DiT部分用3D full attention,在空間上使用2D RoPE(Rotary Positional Encoding)進(jìn)行位置編碼,時(shí)間上用sin_cos進(jìn)行位置編碼。
- 訓(xùn)練損失函數(shù):最終的loss選用DDPM(Denoising Diffusion Probabilistic Models)進(jìn)行訓(xùn)練。
- 參數(shù)量與訓(xùn)練數(shù)據(jù):模型的總參數(shù)量約為7.1B,用約200M視頻片段進(jìn)行訓(xùn)練。
- 訓(xùn)練階段:整個(gè)訓(xùn)練分為四個(gè)階段,從低分辨率預(yù)訓(xùn)練到高分辨率微調(diào),逐步提升模型性能。
Ruyi的項(xiàng)目地址
- GitHub倉庫:https://github.com/IamCreateAI/Ruyi-Models
- HuggingFace模型庫:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
Ruyi的應(yīng)用場景
- 動(dòng)畫預(yù)制:快速生成動(dòng)畫角色和場景的動(dòng)態(tài)演示,評估動(dòng)畫設(shè)計(jì)和故事流程。
- 游戲CG生成:在游戲開發(fā)中,自動(dòng)生成游戲宣傳視頻或游戲內(nèi)的動(dòng)態(tài)背景。
- 電影特效預(yù)覽:在電影制作中,幫助導(dǎo)演和特效團(tuán)隊(duì)預(yù)覽特效場景,優(yōu)化后期特效制作。
- 虛擬主播:生成虛擬主播的動(dòng)態(tài)視頻,用于直播、新聞播報(bào)或在線教育。
- 社交媒體內(nèi)容:為社交媒體平臺創(chuàng)建吸引人的動(dòng)態(tài)視頻內(nèi)容,提高用戶參與度和品牌曝光。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...