原標(biāo)題:全球最大開源視頻模型Step-Video-T2V一手實(shí)測(cè)
文章來源:科技未來派
內(nèi)容字?jǐn)?shù):3439字
國(guó)產(chǎn)AI大模型強(qiáng)勢(shì)來襲:階躍星辰開源雙模態(tài)模型,引領(lǐng)技術(shù)新潮流
近日,國(guó)內(nèi)AI創(chuàng)業(yè)公司階躍星辰與吉利汽車集團(tuán)強(qiáng)強(qiáng)聯(lián)手,聯(lián)合開源了兩款多模態(tài)大模型:Step-Video-T2V視頻生成模型和Step-Audio語(yǔ)音交互模型,在AI領(lǐng)域掀起一股熱潮。其中,Step-Video-T2V更是被官方宣稱為全球參數(shù)量最大、性能最好的開源視頻生成模型,引發(fā)廣泛關(guān)注。
Step-Video-T2V:引領(lǐng)視頻生成新高度
Step-Video-T2V憑借其卓越的性能,在視頻生成領(lǐng)域樹立了新的標(biāo)桿。其四大技術(shù)特點(diǎn)令人矚目:
首先,它能夠直接生成最長(zhǎng)204幀、540P分辨率的視頻,確保視頻內(nèi)容的一致性和信息密度。其次,它采用高壓縮比的Video-VAE,在保證視頻重構(gòu)質(zhì)量的同時(shí),將訓(xùn)練和生成效率提升了驚人的64倍。再次,對(duì)DiT模型進(jìn)行了深入的系統(tǒng)優(yōu)化,確保訓(xùn)練過程的高效性和穩(wěn)定性。最后,它詳細(xì)介紹了完整的訓(xùn)練策略,為其他研究者提供了寶貴的經(jīng)驗(yàn)。
為了客觀評(píng)估模型性能,階躍星辰還開源了Step-Video-T2V-Eval評(píng)測(cè)數(shù)據(jù)集,涵蓋了、風(fēng)景、人物等11個(gè)內(nèi)容類別,共計(jì)128個(gè)真實(shí)用戶評(píng)測(cè)問題。評(píng)測(cè)結(jié)果顯示,Step-Video-T2V在指令遵循、平滑性等方面全面超越了此前最好的開源模型。
實(shí)際測(cè)試中,Step-Video-T2V在復(fù)雜的場(chǎng)景描述下,例如“希區(qū)柯克式變焦鏡頭,廢棄工廠內(nèi)部,神秘人物持槍從長(zhǎng)廊盡頭迎面走來”,也能展現(xiàn)出優(yōu)秀的鏡頭控制能力和細(xì)節(jié)處理,體現(xiàn)了其強(qiáng)大的技術(shù)實(shí)力。
Step-Audio:自然流暢的語(yǔ)音交互體驗(yàn)
與Step-Video-T2V同時(shí)發(fā)布的Step-Audio語(yǔ)音交互模型,也展現(xiàn)了其在語(yǔ)音生成領(lǐng)域的出色表現(xiàn)。其反應(yīng)速度快,生成的語(yǔ)音自然流暢,并具備一定的情商。據(jù)悉,Step-Audio還具備高質(zhì)量音色復(fù)刻和角色扮演功能,未來將在影視娛樂、社交、游戲等領(lǐng)域大展身手。
雖然在實(shí)際測(cè)試中,Step-Audio的表現(xiàn)并未展現(xiàn)出特別驚艷之處,但這或許與其當(dāng)前的版本和應(yīng)用場(chǎng)景有關(guān),未來仍有很大的提升空間。
開源的意義:推動(dòng)中國(guó)AI技術(shù)發(fā)展
階躍星辰此次開源雙模態(tài)大模型,不僅展現(xiàn)了中國(guó)AI技術(shù)的蓬勃發(fā)展,更體現(xiàn)了其開放合作的理念。通過開源,更多開發(fā)者可以參與到模型的改進(jìn)和應(yīng)用中,加速AI技術(shù)的進(jìn)步,最終惠及更廣泛的用戶。
這不僅是技術(shù)層面的突破,更是中國(guó)AI領(lǐng)域走向世界舞臺(tái)的重要一步,標(biāo)志著中國(guó)力量在全球AI競(jìng)賽中將扮演越來越重要的角色。
未來,我們期待看到更多像階躍星辰這樣的企業(yè),以開放的心態(tài),推動(dòng)中國(guó)AI技術(shù)持續(xù)創(chuàng)新,為世界帶來更多驚喜。
聯(lián)系作者
文章來源:科技未來派
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破