萬相首尾幀模型

AI工具3周前更新 AI工具集

3 0 0

萬相首尾幀模型 – 阿里通義開源的首尾幀生視頻模型

萬相首尾幀模型

萬相首尾幀模型（Wan2.1-FLF2V-14B）是一款開源的14B參數(shù)規(guī)模的視頻生成模型，憑借其強(qiáng)大的能力，可以根據(jù)用戶提供的首幀和尾幀圖像，自動(dòng)生成具有流暢過渡效果的高清視頻。該模型支持多種風(fēng)格與特效變換，適合多樣化的創(chuàng)作需求。

萬相首尾幀模型是什么

萬相首尾幀模型（Wan2.1-FLF2V-14B）是一款開源的14B參數(shù)規(guī)模的視頻生成模型。用戶只需提供首幀和尾幀圖像，模型便能自動(dòng)生成時(shí)長為5秒、720p分辨率的高質(zhì)量視頻，并支持多種藝術(shù)風(fēng)格和特效。該模型基于先進(jìn)的DiT架構(gòu)，結(jié)合高效的視頻壓縮VAE模型和交叉注意力機(jī)制，確保生成的視頻在時(shí)空上高度一致。用戶可以在通義萬相官網(wǎng)免費(fèi)體驗(yàn)該模型的強(qiáng)大功能。

萬相首尾幀模型的主要功能

首尾幀視頻生成：根據(jù)用戶提供的首幀和尾幀圖像，生成自然流暢的5秒視頻，分辨率為720p。
多樣化風(fēng)格支持：能夠生成寫實(shí)、卡通、漫畫、奇幻等多種風(fēng)格的視頻，滿足不同創(chuàng)作需求。
精準(zhǔn)細(xì)節(jié)復(fù)刻與自然動(dòng)作：完美復(fù)刻輸入圖像的細(xì)節(jié)，生成自然生動(dòng)的動(dòng)作過渡效果。
指令控制能力：通過提示詞控制視頻內(nèi)容，包括鏡頭移動(dòng)、主體動(dòng)作及特效變化等。

萬相首尾幀模型的技術(shù)原理

DiT架構(gòu)：核心架構(gòu)基于DiT（Diffusion in Time），專為視頻生成設(shè)計(jì)。通過Full Attention機(jī)制，精準(zhǔn)捕捉視頻的長時(shí)程時(shí)空依賴，確保生成視頻的時(shí)間和空間一致性。
高效視頻壓縮VAE模型：采用高效的視頻壓縮VAE（Variational Autoencoder）模型，大幅降低運(yùn)算成本，同時(shí)維持生成視頻的高質(zhì)量，支持大規(guī)模視頻生成任務(wù)。
條件控制分支：用戶提供的首幀和尾幀作為控制條件，通過額外的條件控制分支實(shí)現(xiàn)精準(zhǔn)流暢的首尾幀變換。首幀和尾幀與若干零填充的中間幀拼接，形成控制視頻序列，再與噪聲及掩碼結(jié)合，作為擴(kuò)散變換模型的輸入。
交叉注意力機(jī)制：提取首尾幀的CLIP語義特征，通過交叉注意力機(jī)制注入到DiT的生成過程中，確保生成視頻在語義和視覺上與輸入圖像高度一致。
訓(xùn)練與推理：采用數(shù)據(jù)并行（DP）與完全分片數(shù)據(jù)并行（FSDP）結(jié)合的分布式訓(xùn)練策略，支持720p、5秒視頻的訓(xùn)練，分三個(gè)階段逐步提升模型性能：
- 第一階段：混合訓(xùn)練，學(xué)習(xí)掩碼機(jī)制。
- 第二階段：專項(xiàng)訓(xùn)練，優(yōu)化首尾幀生成能力。
- 第三階段：高精度訓(xùn)練，提升細(xì)節(jié)復(fù)刻與動(dòng)作流暢性。