還能在視頻里生成文字
原標題:阿里開源版Sora上線即屠榜,4070就能跑,免費商用
文章來源:量子位
內容字數:3970字
阿里巴巴開源14B參數視頻生成模型Wan 2.1,性能強勁,免費商用
阿里巴巴在深夜開源了其強大的視頻生成模型Wan 2.1,該模型擁有14B參數,在VBench基準測試中超越了Sora和Gen-3等競爭對手。其在復雜細節、文字生成等方面表現出色,即使是多人復雜的舞蹈動作也能精準還原。
1. 性能卓越,超越現有模型
Wan 2.1在VBench基準測試中取得了領先地位,其生成的視頻在細節刻畫上表現尤為突出。例如,它能夠準確地捕捉到多人hip-hop舞蹈的動作同步性,以及弓弦抖動、西紅柿被切時的細微變化等細節,甚至連水滴從水面濺起的效果都處理得非常自然。更令人驚喜的是,該模型已經能夠在視頻中生成文字,并且文字會根據所在位置的材質進行合理變化,并隨載體一同,這在視頻生成領域是一個顯著的突破。
2. 多種版本,滿足不同需求
為了滿足不同用戶的需求,Wan 2.1提供了14B參數(720P分辨率)和1.3B參數(480P分辨率)兩個版本。1.3B版本在4090顯卡上僅占用8GB顯存,運行時間為4分21秒,這意味著即使是12GB顯存的4070顯卡也能流暢運行。此外,阿里還開源了兩個14B參數的圖像生視頻模型,分別支持480P和720P分辨率。所有四個模型均采用Apache 2.0開源許可證,允許免費商用。
3. 便捷的訪問方式和社區支持
用戶可以通過通義萬相平臺、HuggingFace、魔搭社區或本地部署等多種方式訪問和使用Wan 2.1。平臺上的極速版和專業版分別對應1.3B和14B版本,用戶可以使用“靈感值”進行體驗。官方也計劃將Wan 2.1集成到ComfyUI中,進一步降低使用門檻。
4. 技術創新,高效節能
Wan 2.1采用了創新的3D變分自動編碼器和DiT架構,并結合了多種優化策略,例如特征緩存機制、時空壓縮、FSDP模型切分、上下文并行性等,從而實現了高效的模型訓練和推理。在編碼方面,其3D變分自動編碼器能夠顯著提高重建速度,并在單塊A800上比現有SOTA方法快2.5倍。在推理階段,通過上下文并行性策略,多卡加速實現了接近線性的加速效果。
5. 未來展望
阿里巴巴表示將會發布更詳細的技術報告,進一步揭示Wan 2.1的技術細節。Wan 2.1的開源,為視頻生成領域帶來了新的可能性,也為個人創作者提供了更強大的工具,推動了AIGC技術的發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破