原標題:超越Sora!阿里萬相大模型正式開源,消費級顯卡也能跑!
文章來源:AI前線
內容字數:3185字
阿里云萬相2.1:開源視覺生成基座模型引領新潮流
近日,阿里云重磅開源旗下視覺生成基座模型萬相2.1 (Wan),采用最寬松的Apache2.0協議,開放14B和1.3B兩個參數規格的全部推理代碼和權重,支持文生視頻和圖生視頻任務。該模型在權威評測集VBench中以86.22%的總分奪冠,超越Sora、Luma、Pika等國內外模型,展現出強大的性能。
1. 萬相2.1的卓越性能
萬相2.1在指令遵循、復雜生成、物理建模、文字視頻生成等方面表現突出。14B版本在VBench評測中取得領先地位,而1.3B版本則在性能上超越了更大尺寸的開源模型,甚至接近部分閉源模型,同時僅需8.2GB顯存即可在消費級顯卡上運行,極大降低了使用門檻,方便二次開發和學術研究。
2. 核心技術創新
萬相2.1基于主流DiT架構和線性噪聲軌跡Flow Matching范式,研發了高效的因果3D VAE、可擴展的預訓練策略等。其3D VAE通過特征緩存機制實現了任意長度視頻的高效編解碼,并通過空間降采樣壓縮提前,減少了29%的推理時內存占用。在質量、視覺質量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業界領先表現,斬獲5項第一。
3. 開源策略與阿里云AI戰略
阿里云自2023年起堅定大模型開源路線,其千問(Qwen)衍生模型數量已超過10萬個。萬相的開源,標志著阿里云實現了全模態、全尺寸大模型的開源,進一步推動了AI技術發展。
4. 萬相2.1生成效果展示
文章提供了三個不同提示詞生成的示例,分別為:體育攝影風格的場地障礙賽、中國皮劃艇員激流回旋比賽以及超速POV鏡頭下的中國鄉村小路,展示了萬相2.1在不同場景下的生成能力。具體生成效果未在此處展示,需參考原文。
5. QCon全球軟件開發大會推薦
文章最后推薦了4月10-12日舉辦的QCon全球軟件開發大會·北京站,該大會將探討AI大模型重塑軟件開發的時代變革,以及前沿科技的無限可能。
總之,阿里云萬相2.1的開源,為視覺生成領域帶來了新的突破,其強大的性能和開放的策略將促進AI技術的創新和發展,并為開發者提供了更廣闊的應用空間。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。