突破性AI視頻技術(shù):1.3秒首幀延遲,9.4幀/秒實(shí)時(shí)生成!
網(wǎng)友:和美劇拍攝一個(gè)套路
原標(biāo)題:AI視頻邊生成邊播放!首幀延遲僅1.3秒,生成速度9.4幀/秒|Adobe&MIT新研究
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3217字
引言
Adobe與MIT聯(lián)合開(kāi)發(fā)的CausVid技術(shù),標(biāo)志著視頻生成領(lǐng)域的一次重大突破。該技術(shù)通過(guò)實(shí)時(shí)生成視頻,改變了傳統(tǒng)的等待模式,使用戶(hù)可以在生成過(guò)程中即時(shí)觀看內(nèi)容。
1. 傳統(tǒng)視頻生成的挑戰(zhàn)
傳統(tǒng)視頻生成模型通常采用雙向注意力機(jī)制,這意味著每一幀生成都需要依賴(lài)前后幀的信息。這種方式導(dǎo)致用戶(hù)在觀看視頻時(shí),往往需要等待幾分鐘才能看到完整內(nèi)容,極大影響了用戶(hù)體驗(yàn)。
2. CausVid的創(chuàng)新解決方案
CausVid通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),實(shí)現(xiàn)了自回歸生成模型。這一技術(shù)允許在生成首幀后,用戶(hù)即可開(kāi)始觀看視頻,其余幀則在播放過(guò)程中動(dòng)態(tài)生成,解決了傳統(tǒng)模型的延遲問(wèn)題。
3. 提升生成速度與質(zhì)量
為了進(jìn)一步提高生成速度,研究團(tuán)隊(duì)采用了分布匹配蒸餾(DMD)技術(shù),將生成步驟從50步縮減至4步,顯著提升了視頻生成的效率與質(zhì)量。同時(shí),通過(guò)非對(duì)稱(chēng)蒸餾策略,CausVid有效減少了自回歸模型中的誤差累積問(wèn)題。
4. 實(shí)驗(yàn)效果顯著
在實(shí)驗(yàn)中,CausVid的首幀生成延遲從3.5分鐘降至1.3秒,生成速度從0.6幀/秒提升至9.4幀/秒,質(zhì)量也超越了現(xiàn)有主流模型。研究團(tuán)隊(duì)表示,CausVid能支持多種應(yīng)用,如圖片動(dòng)畫(huà)化、實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換和交互式劇情生成。
5. 未來(lái)展望
借助CausVid技術(shù),未來(lái)視頻生成將更加高效和靈活。該技術(shù)能夠在大語(yǔ)言模型中廣泛應(yīng)用,結(jié)合滑動(dòng)窗口機(jī)制,打破了傳統(tǒng)模型在視頻時(shí)長(zhǎng)上的限制,預(yù)示著視頻生成的全新可能性。
結(jié)論
CausVid的推出為視頻生成帶來(lái)了性的變化,不僅提升了生成速度和質(zhì)量,更拓展了視頻應(yīng)用的邊界。隨著開(kāi)源代碼的發(fā)布,預(yù)計(jì)會(huì)有更多開(kāi)發(fā)者和研究者參與到這一領(lǐng)域,推動(dòng)技術(shù)的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破