Step-Video-TI2V – 階躍星辰開源的圖生視頻模型
Step-Video-TI2V是什么
Step-Video-TI2V 是由階躍星辰(StepFun)推出的一款開源圖生視頻(Image-to-Video)生成模型,具有 300 億個參數(shù)。該模型能夠根據(jù)提供的文本描述和圖像輸入生成最長可達(dá) 102 幀的視頻。其核心技術(shù)基于深度壓縮的變分自編碼器(Video-VAE),實(shí)現(xiàn)了 16×16 的空間壓縮和 8× 的時(shí)間壓縮,大幅提升了訓(xùn)練和推理的效率。用戶還可以通過調(diào)整分?jǐn)?shù)(motion score)來平衡視頻的動態(tài)性和穩(wěn)定性,并支持推、拉、搖、移、旋轉(zhuǎn)、跟隨等多種鏡頭方式。

Step-Video-TI2V的主要功能
- 圖生視頻生成:用戶可以上傳一張圖片并輸入相關(guān)文本描述,模型將生成一段連貫流暢的視頻。
- 高質(zhì)量視頻輸出:支持生成最多 102 幀、5 秒、540P 分辨率的視頻,滿足多種創(chuàng)作需求。
- 動態(tài)性調(diào)節(jié):通過調(diào)整分?jǐn)?shù),用戶能夠控制視頻的動態(tài)效果。例如,分?jǐn)?shù)為 2 時(shí),視頻較為穩(wěn)定,但動態(tài)性較弱;而分?jǐn)?shù)提升至 10 或 20 時(shí),視頻動態(tài)性顯著增強(qiáng)。
- 動態(tài)與穩(wěn)定的平衡:用戶可以在動態(tài)效果和穩(wěn)定性之間找到最優(yōu)平衡點(diǎn),靈活調(diào)整視頻效果。
- 運(yùn)鏡方式控制:支持多種鏡頭方式,包括固定鏡頭、上下左右移動、搖動、放大縮小、推進(jìn)拉遠(yuǎn)、旋轉(zhuǎn)及焦點(diǎn)轉(zhuǎn)移等。
- 電影級運(yùn)鏡效果:能夠生成類似電影級別的復(fù)雜運(yùn)鏡效果,滿足專業(yè)創(chuàng)作需求。
- 動漫效果優(yōu)化:在動漫風(fēng)格視頻生成方面表現(xiàn)杰出,能生成具有虛化背景和動態(tài)動作等特效,適合動畫創(chuàng)作和短視頻制作。
- 靈活的視頻尺寸:支持多種視頻尺寸的生成,包括橫屏、豎屏和方屏,方便用戶根據(jù)不同需求選擇合適的視頻格式。
- 多語言支持:配備雙語文本編碼器,支持中英文提示輸入,方便不同語言用戶使用。
- 特效生成能力:具備初步的特效生成能力,未來將進(jìn)一步優(yōu)化特效效果。
Step-Video-TI2V的技術(shù)原理
- 深度壓縮的變分自編碼器(Video-VAE):該模型使用了深度壓縮的變分自編碼器(Video-VAE),實(shí)現(xiàn) 16×16 的空間壓縮和 8× 的時(shí)間壓縮。此技術(shù)顯著降低了視頻生成的計(jì)算復(fù)雜度,同時(shí)保持了出色的視頻重建質(zhì)量。Video-VAE 采用雙路徑架構(gòu),有效分離高低頻信息,進(jìn)一步優(yōu)化生成效果。
- 基于擴(kuò)散的 Transformer(DiT)架構(gòu):模型基于擴(kuò)散的 Transformer(DiT)架構(gòu),包含 3D 全注意力機(jī)制。通過 Flow Matching 訓(xùn)練方法,逐步去噪輸入噪聲為潛在幀,將文本嵌入和時(shí)間步作為條件因子,該架構(gòu)在生成高動態(tài)和高美學(xué)質(zhì)量視頻方面表現(xiàn)出色。
- 雙語文本編碼器:Step-Video-TI2V 配備雙語文本編碼器,能理解中英文提示,使得模型能夠直接生成與文本描述相符的視頻。
- 直接偏好優(yōu)化(DPO):為提升生成視頻質(zhì)量,模型引入了視頻直接偏好優(yōu)化(Video-DPO)方法,通過人類偏好數(shù)據(jù)對模型進(jìn)行微調(diào),減少偽影并增強(qiáng)視覺效果,使生成的視頻更加平滑和真實(shí)。
- 級聯(lián)訓(xùn)練策略:采用級聯(lián)訓(xùn)練流程,包括文本到圖像(T2I)預(yù)訓(xùn)練、文本到視頻/圖像(T2VI)預(yù)訓(xùn)練、文本到視頻(T2V)微調(diào)和直接偏好優(yōu)化(DPO)訓(xùn)練,以加速模型的收斂,充分利用不同質(zhì)量的視頻數(shù)據(jù)。
- 系統(tǒng)優(yōu)化:在系統(tǒng)層面進(jìn)行了優(yōu)化,包括張量并行、序列并行和 Zero1 優(yōu)化,以實(shí)現(xiàn)高效的分布式訓(xùn)練。引入高性能通信框架 StepRPC 和雙層監(jiān)控系統(tǒng) StepTelemetry,優(yōu)化數(shù)據(jù)傳輸效率和識別性能瓶頸。
Step-Video-TI2V的項(xiàng)目地址
- Github倉庫:https://github.com/stepfun-ai/Step-Video-TI2V
- HuggingFace模型庫:https://huggingface.co/stepfun-ai/stepvideo-ti2v
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.11251
如何使用Step-Video-TI2V
- 訪問躍問視頻:前往躍問視頻的官方網(wǎng)站或移動應(yīng)用。
- 操作步驟:上傳圖片并輸入文本描述,調(diào)整參數(shù)(如分?jǐn)?shù)等),然后點(diǎn)擊生成按鈕以下載或分享視頻。
Step-Video-TI2V的應(yīng)用場景
- 動畫制作:特別擅長生成動漫風(fēng)格的視頻,根據(jù)輸入的圖片和文本描述生成流暢動畫。
- 短視頻制作:支持多種運(yùn)鏡方式,生成具有電影級效果的短視頻。
- 動作教學(xué):生成復(fù)雜的動態(tài)場景,如體育或舞蹈動作教學(xué)視頻。
- 特效制作:能夠生成具有美感和真實(shí)感的視頻,適用于電影、電視劇和游戲中的特效制作。
- 產(chǎn)品展示:生成吸引人的廣告視頻,展示產(chǎn)品特性和品牌故事。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號