原標題:阿里開源最新、最強大的視頻生成模型萬相2.1一手實測
文章來源:科技未來派
內容字數:2286字
阿里巴巴萬相2.1:開源AI視頻生成模型,引領行業新風向
最近,阿里巴巴通義實驗室正式開源了其最新一代視頻生成模型——萬相2.1系列。這一消息在AI圈內引發熱議,因為它代表著AI視頻生成技術邁向了一個新的里程碑。作為一名AI領域的愛好者,我也第一時間進行了體驗和測試,并在此分享我的感受和一些測試結果。
萬相2.1:更流暢、更真實、更豐富的AI視頻生成
萬相2.1在多個方面展現了顯著的提升,其核心優勢在于:
- 復雜:模型能夠更流暢自然地生成復雜的場景,即使是多人互動或高難度動作,也能輕松駕馭。
- 物理模擬:物體交互更加真實,例如液體流動、物體碰撞等,極大地增強了視頻的沉浸感。
- 視覺文字:支持中英文動態文字生成,拓展了視頻的應用場景,讓視頻內容更具表達力。
- 音效音樂:實現了視聽一體化的體驗,自動生成的音效和音樂與視頻內容高度契合,提升了視頻的感染力。
實測體驗:驚艷與不足并存
為了更直觀地了解萬相2.1的能力,我進行了多項測試,結果喜憂參半:
復雜測試
測試案例1:5個人在舞臺上跳街舞。結果顯示,雖然動作能夠生成,但略顯僵硬,真實感有待提升。
測試案例2:在空中飛翔的鷹,正面跟拍鏡頭。這個效果非常驚艷,鷹的飛行姿態和鏡頭都非常自然流暢,真實感極強。
物理模擬測試
測試案例1:牛奶從玻璃壺倒入水杯中。牛奶上升的動態準確,但牛奶在玻璃杯中的視覺效果略有不自然。
測試案例2:切牛排的特寫鏡頭。這個測試結果令人印象深刻,刀切牛排的質感和細節都非常逼真。
視覺文字測試
測試案例1:天空中的云朵組成“新年快樂”(英文)。即使沒有明確指定語言,模型也能生成不錯的英文效果。
測試案例2:天空中的云朵組成“新年快樂”(中文)。明確指定中文后,生成效果同樣出色,但文字略有重疊。
自動生成音效音樂測試
測試案例1:年輕女士彈鋼琴。模型自動生成了逼真的鋼琴聲,與畫面完美匹配。
測試案例2:飛機從頭頂飛過。飛機的轟鳴聲也得到了準確的還原。
總的來說,萬相2.1在復雜、物理模擬、視覺文字和音效音樂方面都有顯著進步,已躋身AI視頻生成模型第一梯隊。但同時也存在一些不足,例如在生成復雜場景時,偶爾會出現一些AI錯誤,例如人物出現多條腿等情況。
開源的意義與未來展望
萬相2.1的開源,為AI視頻生成領域帶來了無限可能。其強大的功能和不斷完善的生態系統,預示著它未來有望成為頂級AI視頻生成模型。
獲取方式
感興趣的朋友可以通過以下鏈接體驗萬相2.1:
- 通義官網:https://tongyi.aliyun.com/wanxiang/videoCreation
- Github地址:https://github.com/Wan-Video
- HuggingFace地址:https://huggingface.co/Wan-AI
- 魔搭社區地址:https://modelscope.cn/organization/Wan-AI
期待萬相2.1在未來能夠取得更大的突破,為我們帶來更多精彩的AI視頻作品。
聯系作者
文章來源:科技未來派
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破