原標題:通義萬相首創生成漢字視頻,全面進化稱霸VBench!AI視頻GPT-3時刻來臨
文章來源:新智元
內容字數:12302字
通義萬相2.1:AI視頻生成領域的新里程碑
阿里巴巴通義萬相視頻生成模型近日迎來史詩級升級,推出2.1極速版和2.1專業版兩個版本。此次升級在架構上取得重大創新,性能大幅提升,并在權威評測榜單VBench上以84.70%的總分登頂,超越Gen-3、CausVid等全球頂尖模型。更令人矚目的是,通義萬相2.1在業界首次實現了漢字視頻生成,標志著AI視頻生成進入“中文時代”。
1. 五大核心升級要點
通義萬相2.1的升級主要體現在以下五個方面:
首創中文文字視頻生成:攻克了AI視頻生成領域長期存在的漢字生成難題,實現了流暢自然的中文文字動畫效果,降低了AI視頻文字創作的門檻。
更穩定的復雜生成:顯著提升了對復雜的處理能力,有效避免了以往AI視頻中常見的肢體扭曲、動作不協調等問題,實現了更符合物理規律的模擬。
更靈活的運鏡控制:AI展現出專業級的運鏡能力,能夠根據場景需求智能調整運鏡速度,并保持鏡頭與主體協調性,提升了視頻的藝術表現力。
更真實的物理規律模擬:模型對物理規律的理解得到顯著提升,能夠更真實地模擬現實世界的動態和細節,避免了“一眼假”的情況,例如逼真地模擬切牛排、水花四濺等場景。
高級質感、多種風格、多長寬比:能夠生成“電影級”畫質的視頻,支持多種藝術風格(如卡通、電影色、3D風格、油畫等),并支持多種長寬比,以適應不同終端設備。
2. 技術創新突破
通義萬相2.1的突破性進展源于其核心架構的創新:
自研VAE與DiT雙重突破:采用自研的高效VAE和DiT架構,在時空上下文關系建模方面取得重大突破,支持無限長1080P視頻的高效編解碼。
超長序列訓練和推理:通過創新的4D并行策略和高效的顯存優化策略,實現了100萬Tokens的高效訓練,顯著提升了訓練性能和分布式擴展性。
規模化數據構建管線與模型自動化評估機制:建立了一套完整的自動化數據構建系統和多維自動化評估系統,保證了模型訓練數據的質量和評估的有效性。
3. AI視頻生成的未來
通義萬相2.1的成功,標志著AI視頻生成技術邁向新的里程碑。雖然目前AI視頻生成技術仍處于發展初期,但在角色一致性、物理規律理解、文本指令精準控制等方面取得的突破,預示著AI視頻生成技術的快速發展,未來將賦予創意工作者前所未有的想象空間,并引發新一輪的行業變革。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。