Step-Video-TI2V – 階躍星辰開源的圖生視頻模型
Step-Video-TI2V是什么
Step-Video-TI2V 是由階躍星辰(StepFun)推出的一款開源圖生視頻(Image-to-Video)生成模型,具有 300 億個參數(shù)。該模型能夠根據(jù)提供的文本描述和圖像輸入生成最長可達 102 幀的視頻。其核心技術基于深度壓縮的變分自編碼器(Video-VAE),實現(xiàn)了 16×16 的空間壓縮和 8× 的時間壓縮,大幅提升了訓練和推理的效率。用戶還可以通過調整分數(shù)(motion score)來平衡視頻的動態(tài)性和穩(wěn)定性,并支持推、拉、搖、移、旋轉、跟隨等多種鏡頭方式。
Step-Video-TI2V的主要功能
- 圖生視頻生成:用戶可以上傳一張圖片并輸入相關文本描述,模型將生成一段連貫流暢的視頻。
- 高質量視頻輸出:支持生成最多 102 幀、5 秒、540P 分辨率的視頻,滿足多種創(chuàng)作需求。
- 動態(tài)性調節(jié):通過調整分數(shù),用戶能夠控制視頻的動態(tài)效果。例如,分數(shù)為 2 時,視頻較為穩(wěn)定,但動態(tài)性較弱;而分數(shù)提升至 10 或 20 時,視頻動態(tài)性顯著增強。
- 動態(tài)與穩(wěn)定的平衡:用戶可以在動態(tài)效果和穩(wěn)定性之間找到最優(yōu)平衡點,靈活調整視頻效果。
- 運鏡方式控制:支持多種鏡頭方式,包括固定鏡頭、上下左右移動、搖動、放大縮小、推進拉遠、旋轉及焦點轉移等。
- 電影級運鏡效果:能夠生成類似電影級別的復雜運鏡效果,滿足專業(yè)創(chuàng)作需求。
- 動漫效果優(yōu)化:在動漫風格視頻生成方面表現(xiàn)杰出,能生成具有虛化背景和動態(tài)動作等特效,適合動畫創(chuàng)作和短視頻制作。
- 靈活的視頻尺寸:支持多種視頻尺寸的生成,包括橫屏、豎屏和方屏,方便用戶根據(jù)不同需求選擇合適的視頻格式。
- 多語言支持:配備雙語文本編碼器,支持中英文提示輸入,方便不同語言用戶使用。
- 特效生成能力:具備初步的特效生成能力,未來將進一步優(yōu)化特效效果。
Step-Video-TI2V的技術原理
- 深度壓縮的變分自編碼器(Video-VAE):該模型使用了深度壓縮的變分自編碼器(Video-VAE),實現(xiàn) 16×16 的空間壓縮和 8× 的時間壓縮。此技術顯著降低了視頻生成的計算復雜度,同時保持了出色的視頻重建質量。Video-VAE 采用雙路徑架構,有效分離高低頻信息,進一步優(yōu)化生成效果。
- 基于擴散的 Transformer(DiT)架構:模型基于擴散的 Transformer(DiT)架構,包含 3D 全注意力機制。通過 Flow Matching 訓練方法,逐步去噪輸入噪聲為潛在幀,將文本嵌入和時間步作為條件因子,該架構在生成高動態(tài)和高美學質量視頻方面表現(xiàn)出色。
- 雙語文本編碼器:Step-Video-TI2V 配備雙語文本編碼器,能理解中英文提示,使得模型能夠直接生成與文本描述相符的視頻。
- 直接偏好優(yōu)化(DPO):為提升生成視頻質量,模型引入了視頻直接偏好優(yōu)化(Video-DPO)方法,通過人類偏好數(shù)據(jù)對模型進行微調,減少偽影并增強視覺效果,使生成的視頻更加平滑和真實。
- 級聯(lián)訓練策略:采用級聯(lián)訓練流程,包括文本到圖像(T2I)預訓練、文本到視頻/圖像(T2VI)預訓練、文本到視頻(T2V)微調和直接偏好優(yōu)化(DPO)訓練,以加速模型的收斂,充分利用不同質量的視頻數(shù)據(jù)。
- 系統(tǒng)優(yōu)化:在系統(tǒng)層面進行了優(yōu)化,包括張量并行、序列并行和 Zero1 優(yōu)化,以實現(xiàn)高效的分布式訓練。引入高性能通信框架 StepRPC 和雙層監(jiān)控系統(tǒng) StepTelemetry,優(yōu)化數(shù)據(jù)傳輸效率和識別性能瓶頸。
Step-Video-TI2V的項目地址
- Github倉庫:https://github.com/stepfun-ai/Step-Video-TI2V
- HuggingFace模型庫:https://huggingface.co/stepfun-ai/stepvideo-ti2v
- arXiv技術論文:https://arxiv.org/pdf/2503.11251
如何使用Step-Video-TI2V
- 訪問躍問視頻:前往躍問視頻的官方網(wǎng)站或移動應用。
- 操作步驟:上傳圖片并輸入文本描述,調整參數(shù)(如分數(shù)等),然后點擊生成按鈕以下載或分享視頻。
Step-Video-TI2V的應用場景
- 動畫制作:特別擅長生成動漫風格的視頻,根據(jù)輸入的圖片和文本描述生成流暢動畫。
- 短視頻制作:支持多種運鏡方式,生成具有電影級效果的短視頻。
- 動作教學:生成復雜的動態(tài)場景,如體育或舞蹈動作教學視頻。
- 特效制作:能夠生成具有美感和真實感的視頻,適用于電影、電視劇和游戲中的特效制作。
- 產(chǎn)品展示:生成吸引人的廣告視頻,展示產(chǎn)品特性和品牌故事。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...