新版通義萬相來了
原標題:今天起,漢字也能AI視頻生成了!《滕王閣序》直接拿捏到位了
文章來源:量子位
內容字數:5650字
阿里通義萬相2.1:AI視頻生成新突破,漢字也能輕松駕馭
阿里巴巴通義萬相最新升級的2.1版本(包含極速版和專業版)在AI視頻生成領域取得了顯著突破,尤其是在處理漢字方面展現出全球領先的能力。文章詳細介紹了該模型的各項新功能和技術創新,并通過多個案例展示其強大的視頻生成能力。
1. 漢字生成能力的突破
通義萬相2.1能夠流暢地生成包含漢字的視頻,無論是簡單的單個漢字,還是復雜的句子,甚至包含大量文字的場景,都能精準還原。文章以“福”字、 “量子位”等例子,展示了模型在不同風格(古風、賽博朋克、水彩插畫等)下的出色表現,并指出即使是復雜的語句如“摸魚一天 快樂無邊”,模型也能較好地完成,雖然存在細微瑕疵。
2. 復雜動作和物理規律的精準還原
以往AI視頻生成在處理復雜人物動作時常出現失真現象,而通義萬相2.1則顯著改善了這種情況。文章通過霹靂舞和跳水等案例,展示了模型在處理高難度、連續性動作時的穩定性和精準度,甚至連跳水員腳背等細節都能清晰展現。此外,模型對物理規律的還原也相當出色,例如切肉場景中肉塊分離、刀面鏡像、底部油脂等細節都得到了體現,以及對《滕王閣序》中意境的精準把握。
3. 運鏡和風格控制能力
通義萬相2.1不僅能夠生成高質量的畫面,還具備優秀的運鏡能力,可以根據用戶的需求,靈活運用各種運鏡技巧,營造出不同的氛圍和視覺效果。文章中“狐大仙蹦迪”和“山谷跑車”的例子,充分展現了模型在運鏡方面的能力。同時,該模型還支持多種風格的視頻生成,例如中世紀真人寫實風格和卡通動畫風格,并可選擇不同的視頻尺寸。
4. 技術創新:三步走策略
通義萬相2.1的成功并非偶然,其背后是阿里團隊在技術上的三大創新:首先是VAE與DiT架構的協同,VAE負責高效壓縮視頻信息,DiT負責捕捉時空動態;其次是超長序列訓練的突破,通過4D并行策略提升訓練效率和穩定性;最后是數據與評估雙輪驅動,構建高質量數據集并建立完善的評估體系。
5. 總結
通義萬相2.1在AI視頻生成領域取得了令人矚目的成就,其漢字生成能力更是全球領先。通過技術創新和持續優化,該模型在視頻質量、動作捕捉、物理規律還原、運鏡技巧等方面都達到了新的高度,標志著國產AI視頻生成技術達到了國際先進水平。目前該模型已上線,用戶可以免費在線體驗。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破