NeurIPS 2023|有效提高視頻編輯一致性!美圖&國科大聯(lián)合提出基于文生圖模型的新方法 EI2
AIGC動態(tài)歡迎閱讀
原標題:NeurIPS 2023|有效提高視頻編輯一致性!美圖&國科大聯(lián)合提出基于文生圖模型的新方法 EI2
關(guān)鍵字:時序,模塊,模型,語義,視頻
文章來源:AI科技評論
內(nèi)容字數(shù):5815字
內(nèi)容摘要:
美圖影像研究院(MT Lab)與中國科學院大學突破性地提出基于文生圖模型的視頻生成新方法EI2,用于提高視頻編輯過程中的語義和內(nèi)容兩方面的一致性。
該論文從理論角度分析和論證視頻編輯過現(xiàn)的不一致的問題,主要由引入的時序信息學習模塊使特征空間出現(xiàn)協(xié)變量偏移造成,并針對性地設(shè)計了新的網(wǎng)絡模塊進行解決以生成高質(zhì)量的編輯結(jié)果。目前,該論文已被機器學習頂會之一NeurIPS 2023接收。1背景作為當前炙手可熱的前沿技術(shù)之一,生成式AI被廣泛應用于各類視覺合成任務,尤其是在圖像生成和編輯領(lǐng)域獲得了令人贊嘆的生成效果。
對比靜態(tài)圖像,視頻擁有更豐富的動態(tài)變化和語義信息,而現(xiàn)有的視覺生成任務主要基于變分自編碼器(VAE)和生成對抗網(wǎng)絡(GAN),但通常會受限于特定場景和數(shù)據(jù),很難提供普適的解決方案。
因此,近年來基于擴散模型(Diffusion Models)在分布式學習上表現(xiàn)出的卓越能力,擴散模型也開始被拓展到視頻領(lǐng)域,并在視頻生成與編輯領(lǐng)域展現(xiàn)出了巨大的潛力。
在研究初期,基于擴散模型的視頻生成和編輯任務利用文本-視頻數(shù)據(jù)集直接訓練文生視頻模型以達到目標。然而,由于缺少高質(zhì)量的視頻數(shù)據(jù),這類
原文鏈接:NeurIPS 2023|有效提高視頻編輯一致性!美圖&國科大聯(lián)合提出基于文生圖模型的新方法 EI2
聯(lián)系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。