通義萬相視頻生成重磅升級，成功登頂VBench，運鏡、質感直達專業級

AI視頻生成，現在終于有可操作性了。

原標題：通義萬相視頻生成重磅升級，成功登頂VBench，運鏡、質感直達專業級
文章來源：機器之心
內容字數：11177字

阿里旗下通義萬相視頻生成模型近日發布2.1版本，帶來極速版和專業版兩個版本，在處理復雜、還原物理規律、提升電影質感及指令遵循等方面取得顯著進展，在權威評測榜單VBench Leaderboard上排名第一。

通義萬相2.1在視頻生成細節方面有了巨大提升。“切牛排”場景中，牛排紋理、油脂光澤、刀鋒切入等細節清晰可見；人物特寫中，表情、肢體動作自然協調，頭發隨風飄動也符合物理規律。在VBench Leaderboard上，其總分達到84.7%，超越了Gen3、Pika、CausVid等模型。

通義萬相2.1解決了AI視頻生成中長期存在的文字生成難題，成為首個支持中英文文字生成及特效生成的模型。它可以生成清晰易懂的文字，并支持多種字體特效，例如在視頻中加入電影級文字動畫。

以往AI視頻生成中，復雜人物常常出現失真或不自然的情況。通義萬相2.1通過算法優化，能夠生成流暢自然的復雜，例如霹靂舞、奔跑等場景，并能細致地還原物理細節，例如奔跑時腳印和揚起的細沙。

通義萬相2.1支持各種運鏡指令，例如鏡頭左移、拉遠、推進等，可以根據內容需求自動生成合理的視頻。此外，它還能準確理解和執行包含多個場景、角色和復雜動作的長文本指令，避免了細節遺漏或邏輯混亂。

通義萬相2.1支持卡通、電影色、3D、油畫、古典等多種藝術風格，并支持1:1、3:4、4:3、16:9和9:16等多種長寬比，滿足不同終端設備的需求。

通義萬相2.1在模型架構上進行了重大升級，采用了高效的VAE和DiT架構，并引入了Flow Matching訓練框架，顯著提升了模型的收斂性、生成質量和效率。通過創新性的視頻編解碼方案和時空全注意力機制，實現了對時空關系的更精準建模。

為了應對超長視覺序列處理的挑戰，團隊采用了分布式、顯存優化的訓練策略，實現了百萬超長序列的高效訓練，并通過一系列優化措施提升了訓練穩定性和效率。

文章認為，通義萬相2.1的進步代表著視頻生成領域正朝著更精準、更真實、更強大的方向發展，并預測未來視頻生成技術將迎來新的突破，實現類似于文本生成領域GPT-3的飛躍。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...