超越Sora!阿里萬相大模型正式開源,消費(fèi)級(jí)顯卡也能跑!

原標(biāo)題:超越Sora!阿里萬相大模型正式開源,消費(fèi)級(jí)顯卡也能跑!
文章來源:AI前線
內(nèi)容字?jǐn)?shù):3185字
阿里云萬相2.1:開源視覺生成基座模型引領(lǐng)新潮流
近日,阿里云重磅開源旗下視覺生成基座模型萬相2.1 (Wan),采用最寬松的Apache2.0協(xié)議,開放14B和1.3B兩個(gè)參數(shù)規(guī)格的全部推理代碼和權(quán)重,支持文生視頻和圖生視頻任務(wù)。該模型在權(quán)威評(píng)測集VBench中以86.22%的總分奪冠,超越Sora、Luma、Pika等國內(nèi)外模型,展現(xiàn)出強(qiáng)大的性能。
1. 萬相2.1的卓越性能
萬相2.1在指令遵循、復(fù)雜生成、物理建模、文字視頻生成等方面表現(xiàn)突出。14B版本在VBench評(píng)測中取得領(lǐng)先地位,而1.3B版本則在性能上超越了更大尺寸的開源模型,甚至接近部分閉源模型,同時(shí)僅需8.2GB顯存即可在消費(fèi)級(jí)顯卡上運(yùn)行,極大降低了使用門檻,方便二次開發(fā)和學(xué)術(shù)研究。
2. 核心技術(shù)創(chuàng)新
萬相2.1基于主流DiT架構(gòu)和線性噪聲軌跡Flow Matching范式,研發(fā)了高效的因果3D VAE、可擴(kuò)展的預(yù)訓(xùn)練策略等。其3D VAE通過特征緩存機(jī)制實(shí)現(xiàn)了任意長度視頻的高效編解碼,并通過空間降采樣壓縮提前,減少了29%的推理時(shí)內(nèi)存占用。在質(zhì)量、視覺質(zhì)量、風(fēng)格和多目標(biāo)等14個(gè)主要維度和26個(gè)子維度測試中,萬相均達(dá)到了業(yè)界領(lǐng)先表現(xiàn),斬獲5項(xiàng)第一。
3. 開源策略與阿里云AI戰(zhàn)略
阿里云自2023年起堅(jiān)定大模型開源路線,其千問(Qwen)衍生模型數(shù)量已超過10萬個(gè)。萬相的開源,標(biāo)志著阿里云實(shí)現(xiàn)了全模態(tài)、全尺寸大模型的開源,進(jìn)一步推動(dòng)了AI技術(shù)發(fā)展。
4. 萬相2.1生成效果展示
文章提供了三個(gè)不同提示詞生成的示例,分別為:體育攝影風(fēng)格的場地障礙賽、中國皮劃艇員激流回旋比賽以及超速POV鏡頭下的中國鄉(xiāng)村小路,展示了萬相2.1在不同場景下的生成能力。具體生成效果未在此處展示,需參考原文。
5. QCon全球軟件開發(fā)大會(huì)推薦
文章最后推薦了4月10-12日舉辦的QCon全球軟件開發(fā)大會(huì)·北京站,該大會(huì)將探討AI大模型重塑軟件開發(fā)的時(shí)代變革,以及前沿科技的無限可能。
總之,阿里云萬相2.1的開源,為視覺生成領(lǐng)域帶來了新的突破,其強(qiáng)大的性能和開放的策略將促進(jìn)AI技術(shù)的創(chuàng)新和發(fā)展,并為開發(fā)者提供了更廣闊的應(yīng)用空間。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號(hào)