<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型

        實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建。

        港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型

        原標(biāo)題:港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):4576字

        港科大團(tuán)隊(duì)開源VideoVAE+:高效壓縮與精準(zhǔn)重建大幅視頻

        機(jī)器之心AIxiv專欄報道了香港科技大學(xué)團(tuán)隊(duì)重磅開源的VideoVAE+,這是一個強(qiáng)大的跨模態(tài)視頻變分自編碼器(Video VAE)。該模型通過創(chuàng)新的時空分離壓縮機(jī)制和文本指導(dǎo),實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建,同時保持了良好的時間一致性和恢復(fù)效果,并在多個基準(zhǔn)測試中超越了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個先進(jìn)模型。

        1. VideoVAE模型概述

        VideoVAE模型是一種基于深度學(xué)習(xí)的生成模型,用于視頻數(shù)據(jù)的壓縮、重建和生成。它將視頻從RGB像素空間投影到低維潛在空間(latent space)。常與擴(kuò)散模型結(jié)合使用,先用VideoVAE編碼器壓縮數(shù)據(jù),去除冗余信息,再在低維潛在空間用擴(kuò)散模型生成,最后用VideoVAE解碼器解碼回RGB視頻,從而提高生成效率。

        2. VideoVAE+的改進(jìn)與創(chuàng)新

        現(xiàn)有VideoVAE方法存在諸多問題,例如忽略幀間時間關(guān)聯(lián)性導(dǎo)致時序閃爍,時間冗余信息未充分壓縮導(dǎo)致訓(xùn)練成本高昂,以及細(xì)節(jié)模糊、卡頓等問題。為了解決這些問題,VideoVAE+提出了以下創(chuàng)新:

        1. 時空分離的壓縮機(jī)制:通過時序感知的空間壓縮方法,有效分離空間和時間信息處理,避免時空耦合導(dǎo)致的偽影。
        2. 輕量級壓縮模型:專門設(shè)計用于高效捕獲視頻動態(tài)的模型。
        3. 文本信息融合:利用文本信息作為指導(dǎo),提高視頻細(xì)節(jié)保留能力和時間穩(wěn)定性。
        4. 圖像和視頻聯(lián)合訓(xùn)練:在圖像和視頻數(shù)據(jù)上聯(lián)合訓(xùn)練,增強(qiáng)模型在多任務(wù)上的重建性能和適應(yīng)性。

        VideoVAE+采用了一種優(yōu)化的時空建模策略,結(jié)合了“同時建模”和“順序建模”的優(yōu)勢。首先,使用時序感知的空間自編碼器壓縮空間信息,然后使用時序自編碼器壓縮時間信息。這種方法既能保證細(xì)節(jié)恢復(fù)能力,又能有效恢復(fù)。

        3. 關(guān)鍵技術(shù)細(xì)節(jié)

        VideoVAE+還包含以下關(guān)鍵技術(shù):

        1. 智能特征分塊:將視頻特征圖分割成小塊(patch)作為token處理,不同層采用不同尺寸,確保細(xì)節(jié)追蹤。
        2. 跨模態(tài)注意力機(jī)制:首次在Video VAE任務(wù)中引入文本信息作為語義指導(dǎo),提升細(xì)節(jié)重建質(zhì)量。
        3. 強(qiáng)大的文本嵌入器:采用Flan-T5模型將文本轉(zhuǎn)化為語義向量。

        4. 實(shí)驗(yàn)結(jié)果與結(jié)論

        VideoVAE+在多個數(shù)據(jù)集上進(jìn)行了測試,結(jié)果表明其性能大幅超過了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個最新模型。該模型能夠準(zhǔn)確重建大幅視頻,并有效解決了卡頓、重建模糊和細(xì)節(jié)缺失等問題。

        VideoVAE+的開源,為視頻壓縮、重建和生成領(lǐng)域帶來了新的突破,為后續(xù)研究提供了寶貴的參考。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲Av综合色区无码专区桃色| 国产jizzjizz视频免费看| 亚洲午夜久久久久久噜噜噜| 曰批免费视频播放在线看片二| 最近中文字幕mv免费高清视频7| 亚洲AV无码乱码在线观看裸奔| 一级做a爰性色毛片免费| 亚洲国产精品丝袜在线观看| 一级特黄录像免费播放中文版| 国产成人精品免费视频大全五级 | 美女被免费网站91色| 亚洲国产成人久久一区久久| 曰韩无码AV片免费播放不卡 | 亚洲精品无码久久毛片波多野吉衣| 玖玖在线免费视频| 亚洲黄色网址在线观看| 在线观看H网址免费入口| 精品亚洲成A人无码成A在线观看| 日韩免费一区二区三区在线播放| 亚洲一级大黄大色毛片| 天堂在线免费观看中文版| 亚洲精品无码专区在线播放| 亚洲第一福利网站在线观看| GOGOGO免费观看国语| 亚洲色图在线观看| 国内精品免费视频自在线| 一区视频免费观看| 中文字幕亚洲第一在线| 夫妻免费无码V看片| av片在线观看永久免费| 91久久亚洲国产成人精品性色| 成年女人色毛片免费看| 免费夜色污私人影院网站| 亚洲国产老鸭窝一区二区三区 | 人人狠狠综合久久亚洲婷婷| 很黄很黄的网站免费的| 色吊丝免费观看网站| 久久精品亚洲一区二区三区浴池| 久久久高清免费视频| 特级av毛片免费观看| 91嫩草私人成人亚洲影院|