通義萬相首創(chuàng)生成漢字視頻,全面進化稱霸VBench!AI視頻GPT-3時刻來臨
原標題:通義萬相首創(chuàng)生成漢字視頻,全面進化稱霸VBench!AI視頻GPT-3時刻來臨
文章來源:新智元
內(nèi)容字數(shù):12302字
通義萬相2.1:AI視頻生成領域的新里程碑
阿里巴巴通義萬相視頻生成模型近日迎來史詩級升級,推出2.1極速版和2.1專業(yè)版兩個版本。此次升級在架構上取得重大創(chuàng)新,性能大幅提升,并在權威評測榜單VBench上以84.70%的總分登頂,超越Gen-3、CausVid等全球頂尖模型。更令人矚目的是,通義萬相2.1在業(yè)界首次實現(xiàn)了漢字視頻生成,標志著AI視頻生成進入“中文時代”。
1. 五大核心升級要點
通義萬相2.1的升級主要體現(xiàn)在以下五個方面:
首創(chuàng)中文文字視頻生成:攻克了AI視頻生成領域長期存在的漢字生成難題,實現(xiàn)了流暢自然的中文文字動畫效果,降低了AI視頻文字創(chuàng)作的門檻。
更穩(wěn)定的復雜生成:顯著提升了對復雜的處理能力,有效避免了以往AI視頻中常見的肢體扭曲、動作不協(xié)調(diào)等問題,實現(xiàn)了更符合物理規(guī)律的模擬。
更靈活的運鏡控制:AI展現(xiàn)出專業(yè)級的運鏡能力,能夠根據(jù)場景需求智能調(diào)整運鏡速度,并保持鏡頭與主體協(xié)調(diào)性,提升了視頻的藝術表現(xiàn)力。
更真實的物理規(guī)律模擬:模型對物理規(guī)律的理解得到顯著提升,能夠更真實地模擬現(xiàn)實世界的動態(tài)和細節(jié),避免了“一眼假”的情況,例如逼真地模擬切牛排、水花四濺等場景。
高級質(zhì)感、多種風格、多長寬比:能夠生成“電影級”畫質(zhì)的視頻,支持多種藝術風格(如卡通、電影色、3D風格、油畫等),并支持多種長寬比,以適應不同終端設備。
2. 技術創(chuàng)新突破
通義萬相2.1的突破性進展源于其核心架構的創(chuàng)新:
自研VAE與DiT雙重突破:采用自研的高效VAE和DiT架構,在時空上下文關系建模方面取得重大突破,支持無限長1080P視頻的高效編解碼。
超長序列訓練和推理:通過創(chuàng)新的4D并行策略和高效的顯存優(yōu)化策略,實現(xiàn)了100萬Tokens的高效訓練,顯著提升了訓練性能和分布式擴展性。
規(guī)模化數(shù)據(jù)構建管線與模型自動化評估機制:建立了一套完整的自動化數(shù)據(jù)構建系統(tǒng)和多維自動化評估系統(tǒng),保證了模型訓練數(shù)據(jù)的質(zhì)量和評估的有效性。
3. AI視頻生成的未來
通義萬相2.1的成功,標志著AI視頻生成技術邁向新的里程碑。雖然目前AI視頻生成技術仍處于發(fā)展初期,但在角色一致性、物理規(guī)律理解、文本指令精準控制等方面取得的突破,預示著AI視頻生成技術的快速發(fā)展,未來將賦予創(chuàng)意工作者前所未有的想象空間,并引發(fā)新一輪的行業(yè)變革。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。