原標(biāo)題:今天起,漢字也能AI視頻生成了!
文章來源:科技未來派
內(nèi)容字?jǐn)?shù):2893字
阿里云通義萬相2.1:AI視頻生成技術(shù)的新突破
人工智能技術(shù)日新月異,在視頻生成領(lǐng)域更是取得了令人矚目的進展。近日,阿里云通義萬相迎來了重磅升級,推出了其2.1版本的視頻生成模型。這一升級在視頻生成的復(fù)雜度、物理精度和藝術(shù)表現(xiàn)力等方面實現(xiàn)了全面提升,并在權(quán)威評測榜單VBench中摘得桂冠,標(biāo)志著AI視頻生成技術(shù)邁向了新的高度。
VBench榜首,實力認(rèn)證
VBench作為視頻生成領(lǐng)域的權(quán)威評測集,涵蓋了16個關(guān)鍵評分維度,對模型的整體一致性、動作流暢度、畫面穩(wěn)定性等進行全方位評估。通義萬相2.1在幅度、多對象生成、空間關(guān)系等方面獲得了最高分,最終以84.7%的總分榮登榜首,其卓越性能得到了權(quán)威機構(gòu)的認(rèn)可。
攻克難題,精準(zhǔn)模擬現(xiàn)實
精準(zhǔn)理解和模擬物理世界是視頻生成模型的核心挑戰(zhàn)。以往的模型在處理大幅度和復(fù)雜的物理場景時往往力不從心,生成的視頻容易出現(xiàn)肢體扭曲、違背物理規(guī)律等問題。通義萬相團隊通過自研高效的VAE和DiT架構(gòu),有效增強了時空上下文關(guān)系建模能力,解決了這一難題。
突破技術(shù)瓶頸,實現(xiàn)更逼真、更流暢的視頻
得益于全新的架構(gòu),通義萬相2.1在生成大幅度肢體和旋轉(zhuǎn)的視頻方面表現(xiàn)更為穩(wěn)定。即使是花樣滑冰、游泳、跳水等高難度動作,也能精準(zhǔn)地展現(xiàn)肢體協(xié)調(diào)性和軌跡的合理性。此外,它還支持中文文字生成能力,并同時支持中英文文字特效生成,成為首個具備此功能的視頻生成模型,極大地拓展了其應(yīng)用范圍,滿足了廣告設(shè)計、短視頻制作等領(lǐng)域的創(chuàng)作需求。
時空全注意機制與高效編解碼方案
通義萬相2.1在DiT設(shè)計中采用了時空全注意機制,能夠更準(zhǔn)確地模擬現(xiàn)實世界的復(fù)雜動態(tài)。同時,引入的參數(shù)共享機制不僅提升了模型性能,還降低了訓(xùn)練成本。此外,對文本嵌入的優(yōu)化提升了文本可控性并減少了計算需求。在視頻VAE方面,創(chuàng)新的視頻編解碼方案能夠支持無限長1080P視頻的高效編解碼,為任意時長視頻的訓(xùn)練提供了新的可能性。
免費開放,賦能開發(fā)者與企業(yè)
目前,通義萬相2.1模型已全面開放,用戶可在官網(wǎng)免費使用。個人開發(fā)者和企業(yè)用戶還可通過阿里云百煉調(diào)用通義萬相API,進一步開發(fā)更豐富的AI工具和應(yīng)用,共同探索AI視頻生成技術(shù)的無限可能。
結(jié)語
通義萬相2.1的發(fā)布,不僅是阿里云在AI領(lǐng)域的一次重大突破,也為AI視頻生成技術(shù)的發(fā)展樹立了新的標(biāo)桿。相信隨著技術(shù)的不斷進步,AI將為我們帶來更加精彩紛呈的視頻內(nèi)容,改變我們創(chuàng)作和體驗世界的方式。
聯(lián)系作者
文章來源:科技未來派
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破