国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Step-Video-TI2V

Step-Video-TI2V – 階躍星辰開源的圖生視頻模型

Step-Video-TI2V是什么

Step-Video-TI2V 是由階躍星辰（StepFun）推出的一款開源圖生視頻（Image-to-Video）生成模型，具有 300 億個參數(shù)。該模型能夠根據(jù)提供的文本描述和圖像輸入生成最長可達(dá) 102 幀的視頻。其核心技術(shù)基于深度壓縮的變分自編碼器（Video-VAE），實(shí)現(xiàn)了 16×16 的空間壓縮和 8× 的時(shí)間壓縮，大幅提升了訓(xùn)練和推理的效率。用戶還可以通過調(diào)整分?jǐn)?shù)（motion score）來平衡視頻的動態(tài)性和穩(wěn)定性，并支持推、拉、搖、移、旋轉(zhuǎn)、跟隨等多種鏡頭方式。

Step-Video-TI2V

Step-Video-TI2V的主要功能

圖生視頻生成：用戶可以上傳一張圖片并輸入相關(guān)文本描述，模型將生成一段連貫流暢的視頻。
高質(zhì)量視頻輸出：支持生成最多 102 幀、5 秒、540P 分辨率的視頻，滿足多種創(chuàng)作需求。
動態(tài)性調(diào)節(jié)：通過調(diào)整分?jǐn)?shù)，用戶能夠控制視頻的動態(tài)效果。例如，分?jǐn)?shù)為 2 時(shí)，視頻較為穩(wěn)定，但動態(tài)性較弱；而分?jǐn)?shù)提升至 10 或 20 時(shí)，視頻動態(tài)性顯著增強(qiáng)。
動態(tài)與穩(wěn)定的平衡：用戶可以在動態(tài)效果和穩(wěn)定性之間找到最優(yōu)平衡點(diǎn)，靈活調(diào)整視頻效果。
運(yùn)鏡方式控制：支持多種鏡頭方式，包括固定鏡頭、上下左右移動、搖動、放大縮小、推進(jìn)拉遠(yuǎn)、旋轉(zhuǎn)及焦點(diǎn)轉(zhuǎn)移等。
電影級運(yùn)鏡效果：能夠生成類似電影級別的復(fù)雜運(yùn)鏡效果，滿足專業(yè)創(chuàng)作需求。
動漫效果優(yōu)化：在動漫風(fēng)格視頻生成方面表現(xiàn)杰出，能生成具有虛化背景和動態(tài)動作等特效，適合動畫創(chuàng)作和短視頻制作。
靈活的視頻尺寸：支持多種視頻尺寸的生成，包括橫屏、豎屏和方屏，方便用戶根據(jù)不同需求選擇合適的視頻格式。
多語言支持：配備雙語文本編碼器，支持中英文提示輸入，方便不同語言用戶使用。
特效生成能力：具備初步的特效生成能力，未來將進(jìn)一步優(yōu)化特效效果。

Step-Video-TI2V的技術(shù)原理

深度壓縮的變分自編碼器（Video-VAE）：該模型使用了深度壓縮的變分自編碼器（Video-VAE），實(shí)現(xiàn) 16×16 的空間壓縮和 8× 的時(shí)間壓縮。此技術(shù)顯著降低了視頻生成的計(jì)算復(fù)雜度，同時(shí)保持了出色的視頻重建質(zhì)量。Video-VAE 采用雙路徑架構(gòu)，有效分離高低頻信息，進(jìn)一步優(yōu)化生成效果。
基于擴(kuò)散的 Transformer（DiT）架構(gòu)：模型基于擴(kuò)散的 Transformer（DiT）架構(gòu)，包含 3D 全注意力機(jī)制。通過 Flow Matching 訓(xùn)練方法，逐步去噪輸入噪聲為潛在幀，將文本嵌入和時(shí)間步作為條件因子，該架構(gòu)在生成高動態(tài)和高美學(xué)質(zhì)量視頻方面表現(xiàn)出色。
雙語文本編碼器：Step-Video-TI2V 配備雙語文本編碼器，能理解中英文提示，使得模型能夠直接生成與文本描述相符的視頻。
直接偏好優(yōu)化（DPO）：為提升生成視頻質(zhì)量，模型引入了視頻直接偏好優(yōu)化（Video-DPO）方法，通過人類偏好數(shù)據(jù)對模型進(jìn)行微調(diào)，減少偽影并增強(qiáng)視覺效果，使生成的視頻更加平滑和真實(shí)。
級聯(lián)訓(xùn)練策略：采用級聯(lián)訓(xùn)練流程，包括文本到圖像（T2I）預(yù)訓(xùn)練、文本到視頻/圖像（T2VI）預(yù)訓(xùn)練、文本到視頻（T2V）微調(diào)和直接偏好優(yōu)化（DPO）訓(xùn)練，以加速模型的收斂，充分利用不同質(zhì)量的視頻數(shù)據(jù)。
系統(tǒng)優(yōu)化：在系統(tǒng)層面進(jìn)行了優(yōu)化，包括張量并行、序列并行和 Zero1 優(yōu)化，以實(shí)現(xiàn)高效的分布式訓(xùn)練。引入高性能通信框架 StepRPC 和雙層監(jiān)控系統(tǒng) StepTelemetry，優(yōu)化數(shù)據(jù)傳輸效率和識別性能瓶頸。