AI視頻生成,現在終于有可操作性了。
原標題:通義萬相視頻生成重磅升級,成功登頂VBench,運鏡、質感直達專業級
文章來源:機器之心
內容字數:11177字
阿里通義萬相2.1視頻生成模型重磅升級:開啟AI藝術創作新大門
阿里旗下通義萬相視頻生成模型近日發布2.1版本,帶來極速版和專業版兩個版本,在處理復雜、還原物理規律、提升電影質感及指令遵循等方面取得顯著進展,在權威評測榜單VBench Leaderboard上排名第一。
1. 性能大幅提升,細節拉滿
通義萬相2.1在視頻生成細節方面有了巨大提升。“切牛排”場景中,牛排紋理、油脂光澤、刀鋒切入等細節清晰可見;人物特寫中,表情、肢體動作自然協調,頭發隨風飄動也符合物理規律。在VBench Leaderboard上,其總分達到84.7%,超越了Gen3、Pika、CausVid等模型。
2. 突破文字生成難題,特效字體輕松駕馭
通義萬相2.1解決了AI視頻生成中長期存在的文字生成難題,成為首個支持中英文文字生成及特效生成的模型。它可以生成清晰易懂的文字,并支持多種字體特效,例如在視頻中加入電影級文字動畫。
3. 復雜更流暢,物理規律更精準
以往AI視頻生成中,復雜人物常常出現失真或不自然的情況。通義萬相2.1通過算法優化,能夠生成流暢自然的復雜,例如霹靂舞、奔跑等場景,并能細致地還原物理細節,例如奔跑時腳印和揚起的細沙。
4. 運鏡媲美電影大師,長文本指令精準遵循
通義萬相2.1支持各種運鏡指令,例如鏡頭左移、拉遠、推進等,可以根據內容需求自動生成合理的視頻。此外,它還能準確理解和執行包含多個場景、角色和復雜動作的長文本指令,避免了細節遺漏或邏輯混亂。
5. 支持多種藝術風格,滿足多樣化創作需求
通義萬相2.1支持卡通、電影色、3D、油畫、古典等多種藝術風格,并支持1:1、3:4、4:3、16:9和9:16等多種長寬比,滿足不同終端設備的需求。
6. 技術升級:高效VAE和DiT架構
通義萬相2.1在模型架構上進行了重大升級,采用了高效的VAE和DiT架構,并引入了Flow Matching訓練框架,顯著提升了模型的收斂性、生成質量和效率。通過創新性的視頻編解碼方案和時空全注意力機制,實現了對時空關系的更精準建模。
7. 百萬超長序列高效訓練
為了應對超長視覺序列處理的挑戰,團隊采用了分布式、顯存優化的訓練策略,實現了百萬超長序列的高效訓練,并通過一系列優化措施提升了訓練穩定性和效率。
8. 未來展望:視頻生成的GPT-3時刻
文章認為,通義萬相2.1的進步代表著視頻生成領域正朝著更精準、更真實、更強大的方向發展,并預測未來視頻生成技術將迎來新的突破,實現類似于文本生成領域GPT-3的飛躍。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺