原標(biāo)題:阿里開源最新、最強(qiáng)大的視頻生成模型萬(wàn)相2.1一手實(shí)測(cè)
文章來源:科技未來派
內(nèi)容字?jǐn)?shù):2286字
阿里巴巴萬(wàn)相2.1:開源AI視頻生成模型,引領(lǐng)行業(yè)新風(fēng)向
最近,阿里巴巴通義實(shí)驗(yàn)室正式開源了其最新一代視頻生成模型——萬(wàn)相2.1系列。這一消息在AI圈內(nèi)引發(fā)熱議,因?yàn)樗碇鳤I視頻生成技術(shù)邁向了一個(gè)新的里程碑。作為一名AI領(lǐng)域的愛好者,我也第一時(shí)間進(jìn)行了體驗(yàn)和測(cè)試,并在此分享我的感受和一些測(cè)試結(jié)果。
萬(wàn)相2.1:更流暢、更真實(shí)、更豐富的AI視頻生成
萬(wàn)相2.1在多個(gè)方面展現(xiàn)了顯著的提升,其核心優(yōu)勢(shì)在于:
- 復(fù)雜:模型能夠更流暢自然地生成復(fù)雜的場(chǎng)景,即使是多人互動(dòng)或高難度動(dòng)作,也能輕松駕馭。
- 物理模擬:物體交互更加真實(shí),例如液體流動(dòng)、物體碰撞等,極大地增強(qiáng)了視頻的沉浸感。
- 視覺文字:支持中英文動(dòng)態(tài)文字生成,拓展了視頻的應(yīng)用場(chǎng)景,讓視頻內(nèi)容更具表達(dá)力。
- 音效音樂:實(shí)現(xiàn)了視聽一體化的體驗(yàn),自動(dòng)生成的音效和音樂與視頻內(nèi)容高度契合,提升了視頻的感染力。
實(shí)測(cè)體驗(yàn):驚艷與不足并存
為了更直觀地了解萬(wàn)相2.1的能力,我進(jìn)行了多項(xiàng)測(cè)試,結(jié)果喜憂參半:
復(fù)雜測(cè)試
測(cè)試案例1:5個(gè)人在舞臺(tái)上跳街舞。結(jié)果顯示,雖然動(dòng)作能夠生成,但略顯僵硬,真實(shí)感有待提升。
測(cè)試案例2:在空中飛翔的鷹,正面跟拍鏡頭。這個(gè)效果非常驚艷,鷹的飛行姿態(tài)和鏡頭都非常自然流暢,真實(shí)感極強(qiáng)。
物理模擬測(cè)試
測(cè)試案例1:牛奶從玻璃壺倒入水杯中。牛奶上升的動(dòng)態(tài)準(zhǔn)確,但牛奶在玻璃杯中的視覺效果略有不自然。
測(cè)試案例2:切牛排的特寫鏡頭。這個(gè)測(cè)試結(jié)果令人印象深刻,刀切牛排的質(zhì)感和細(xì)節(jié)都非常逼真。
視覺文字測(cè)試
測(cè)試案例1:天空中的云朵組成“新年快樂”(英文)。即使沒有明確指定語(yǔ)言,模型也能生成不錯(cuò)的英文效果。
測(cè)試案例2:天空中的云朵組成“新年快樂”(中文)。明確指定中文后,生成效果同樣出色,但文字略有重疊。
自動(dòng)生成音效音樂測(cè)試
測(cè)試案例1:年輕女士彈鋼琴。模型自動(dòng)生成了逼真的鋼琴聲,與畫面完美匹配。
測(cè)試案例2:飛機(jī)從頭頂飛過。飛機(jī)的轟鳴聲也得到了準(zhǔn)確的還原。
總的來說,萬(wàn)相2.1在復(fù)雜、物理模擬、視覺文字和音效音樂方面都有顯著進(jìn)步,已躋身AI視頻生成模型第一梯隊(duì)。但同時(shí)也存在一些不足,例如在生成復(fù)雜場(chǎng)景時(shí),偶爾會(huì)出現(xiàn)一些AI錯(cuò)誤,例如人物出現(xiàn)多條腿等情況。
開源的意義與未來展望
萬(wàn)相2.1的開源,為AI視頻生成領(lǐng)域帶來了無限可能。其強(qiáng)大的功能和不斷完善的生態(tài)系統(tǒng),預(yù)示著它未來有望成為頂級(jí)AI視頻生成模型。
獲取方式
感興趣的朋友可以通過以下鏈接體驗(yàn)萬(wàn)相2.1:
- 通義官網(wǎng):https://tongyi.aliyun.com/wanxiang/videoCreation
- Github地址:https://github.com/Wan-Video
- HuggingFace地址:https://huggingface.co/Wan-AI
- 魔搭社區(qū)地址:https://modelscope.cn/organization/Wan-AI
期待萬(wàn)相2.1在未來能夠取得更大的突破,為我們帶來更多精彩的AI視頻作品。
聯(lián)系作者
文章來源:科技未來派
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破