14秒就能重建視頻，還能變換角色，Meta讓視頻合成提速44倍

AIGC動態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：14秒就能重建視頻，還能變換角色，Meta讓視頻合成提速44倍
關(guān)鍵字：模型,特征,注意力,研究者,編輯
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3895字

內(nèi)容摘要：

機(jī)器之心報道
機(jī)器之心編輯部Meta的視頻合成新框架又給了我們一點(diǎn)小小的震撼。就今天的人工智能發(fā)展水平來說，文生圖、圖生視頻、圖像/視頻風(fēng)格遷移都已經(jīng)不算什么難事。
生成式 AI 天賦異稟，能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯，在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動下，經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。
基于圖像的生成模型所取得的成就基礎(chǔ)上，下一個挑戰(zhàn)的領(lǐng)域必然是為其增加「時間維度」，從而實(shí)現(xiàn)輕松而富有創(chuàng)意的視頻編輯。
一種直接策略是使用圖像模型逐幀處理視頻，然而，生成式圖像編輯本身就具有高變異性—即使根據(jù)相同的文本提示，也存在無數(shù)種編輯給定圖像的方法。如果每一幀都編輯，很難保持時間上的一致性。
在最近的一篇論文中，來自Meta GenAI團(tuán)隊的研究者提出了 Fairy——通過對圖像編輯擴(kuò)散模型進(jìn)行「簡單的改編」，大大增強(qiáng)了AI在視頻編輯上的表現(xiàn)。
以下是Fairy的編輯視頻效果展示：Fairy 生成 120 幀 512×384 視頻（4 秒時長，30 FPS）的時間僅為 14 秒，比之前的方法至少快 44 倍。一項涉及 1000

原文鏈接：14秒就能重建視頻，還能變換角色，Meta讓視頻合成提速44倍