港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型
實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建。
原標(biāo)題:港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4576字
港科大團(tuán)隊開源VideoVAE+:高效壓縮與精準(zhǔn)重建大幅視頻
機(jī)器之心AIxiv專欄報道了香港科技大學(xué)團(tuán)隊重磅開源的VideoVAE+,這是一個強(qiáng)大的跨模態(tài)視頻變分自編碼器(Video VAE)。該模型通過創(chuàng)新的時空分離壓縮機(jī)制和文本指導(dǎo),實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建,同時保持了良好的時間一致性和恢復(fù)效果,并在多個基準(zhǔn)測試中超越了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個先進(jìn)模型。
1. VideoVAE模型概述
VideoVAE模型是一種基于深度學(xué)習(xí)的生成模型,用于視頻數(shù)據(jù)的壓縮、重建和生成。它將視頻從RGB像素空間投影到低維潛在空間(latent space)。常與擴(kuò)散模型結(jié)合使用,先用VideoVAE編碼器壓縮數(shù)據(jù),去除冗余信息,再在低維潛在空間用擴(kuò)散模型生成,最后用VideoVAE解碼器解碼回RGB視頻,從而提高生成效率。
2. VideoVAE+的改進(jìn)與創(chuàng)新
現(xiàn)有VideoVAE方法存在諸多問題,例如忽略幀間時間關(guān)聯(lián)性導(dǎo)致時序閃爍,時間冗余信息未充分壓縮導(dǎo)致訓(xùn)練成本高昂,以及細(xì)節(jié)模糊、卡頓等問題。為了解決這些問題,VideoVAE+提出了以下創(chuàng)新:
- 時空分離的壓縮機(jī)制:通過時序感知的空間壓縮方法,有效分離空間和時間信息處理,避免時空耦合導(dǎo)致的偽影。
- 輕量級壓縮模型:專門設(shè)計用于高效捕獲視頻動態(tài)的模型。
- 文本信息融合:利用文本信息作為指導(dǎo),提高視頻細(xì)節(jié)保留能力和時間穩(wěn)定性。
- 圖像和視頻聯(lián)合訓(xùn)練:在圖像和視頻數(shù)據(jù)上聯(lián)合訓(xùn)練,增強(qiáng)模型在多任務(wù)上的重建性能和適應(yīng)性。
VideoVAE+采用了一種優(yōu)化的時空建模策略,結(jié)合了“同時建模”和“順序建模”的優(yōu)勢。首先,使用時序感知的空間自編碼器壓縮空間信息,然后使用時序自編碼器壓縮時間信息。這種方法既能保證細(xì)節(jié)恢復(fù)能力,又能有效恢復(fù)。
3. 關(guān)鍵技術(shù)細(xì)節(jié)
VideoVAE+還包含以下關(guān)鍵技術(shù):
- 智能特征分塊:將視頻特征圖分割成小塊(patch)作為token處理,不同層采用不同尺寸,確保細(xì)節(jié)追蹤。
- 跨模態(tài)注意力機(jī)制:首次在Video VAE任務(wù)中引入文本信息作為語義指導(dǎo),提升細(xì)節(jié)重建質(zhì)量。
- 強(qiáng)大的文本嵌入器:采用Flan-T5模型將文本轉(zhuǎn)化為語義向量。
4. 實(shí)驗(yàn)結(jié)果與結(jié)論
VideoVAE+在多個數(shù)據(jù)集上進(jìn)行了測試,結(jié)果表明其性能大幅超過了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個最新模型。該模型能夠準(zhǔn)確重建大幅視頻,并有效解決了卡頓、重建模糊和細(xì)節(jié)缺失等問題。
VideoVAE+的開源,為視頻壓縮、重建和生成領(lǐng)域帶來了新的突破,為后續(xù)研究提供了寶貴的參考。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺