實現了對大幅視頻的高效壓縮與精準重建。
港科大團隊開源VideoVAE+:高效壓縮與精準重建大幅視頻
機器之心AIxiv專欄報道了香港科技大學團隊重磅開源的VideoVAE+,這是一個強大的跨模態視頻變分自編碼器(Video VAE)。該模型通過創新的時空分離壓縮機制和文本指導,實現了對大幅視頻的高效壓縮與精準重建,同時保持了良好的時間一致性和恢復效果,并在多個基準測試中超越了包括英偉達Cosmos Tokenizer和騰訊Hunyuan Video在內的多個先進模型。
1. VideoVAE模型概述
VideoVAE模型是一種基于深度學習的生成模型,用于視頻數據的壓縮、重建和生成。它將視頻從RGB像素空間投影到低維潛在空間(latent space)。常與擴散模型結合使用,先用VideoVAE編碼器壓縮數據,去除冗余信息,再在低維潛在空間用擴散模型生成,最后用VideoVAE解碼器解碼回RGB視頻,從而提高生成效率。
2. VideoVAE+的改進與創新
現有VideoVAE方法存在諸多問題,例如忽略幀間時間關聯性導致時序閃爍,時間冗余信息未充分壓縮導致訓練成本高昂,以及細節模糊、卡頓等問題。為了解決這些問題,VideoVAE+提出了以下創新:
- 時空分離的壓縮機制:通過時序感知的空間壓縮方法,有效分離空間和時間信息處理,避免時空耦合導致的偽影。
- 輕量級壓縮模型:專門設計用于高效捕獲視頻動態的模型。
- 文本信息融合:利用文本信息作為指導,提高視頻細節保留能力和時間穩定性。
- 圖像和視頻聯合訓練:在圖像和視頻數據上聯合訓練,增強模型在多任務上的重建性能和適應性。
VideoVAE+采用了一種優化的時空建模策略,結合了“同時建模”和“順序建?!钡膬瀯荨J紫龋褂脮r序感知的空間自編碼器壓縮空間信息,然后使用時序自編碼器壓縮時間信息。這種方法既能保證細節恢復能力,又能有效恢復。
3. 關鍵技術細節
VideoVAE+還包含以下關鍵技術:
- 智能特征分塊:將視頻特征圖分割成小塊(patch)作為token處理,不同層采用不同尺寸,確保細節追蹤。
- 跨模態注意力機制:首次在Video VAE任務中引入文本信息作為語義指導,提升細節重建質量。
- 強大的文本嵌入器:采用Flan-T5模型將文本轉化為語義向量。
4. 實驗結果與結論
VideoVAE+在多個數據集上進行了測試,結果表明其性能大幅超過了包括英偉達Cosmos Tokenizer和騰訊Hunyuan Video在內的多個最新模型。該模型能夠準確重建大幅視頻,并有效解決了卡頓、重建模糊和細節缺失等問題。
VideoVAE+的開源,為視頻壓縮、重建和生成領域帶來了新的突破,為后續研究提供了寶貴的參考。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺