ActAnywhere是什么
ActAnywhere是斯坦福大學(xué)與Adobe Research的研究者們聯(lián)合開發(fā)的一款視頻生成模型,專注于視頻背景的自動(dòng)生成,尤其是在需要將前景主體(如人類角色)與新背景無縫融合的場景中。此模型在電影制作及視覺效果(VFX)行業(yè)中表現(xiàn)出色,能夠高效地創(chuàng)建與前景主體相匹配的視頻背景,顯著減少了傳統(tǒng)手動(dòng)合成所需的時(shí)間和精力。

官方項(xiàng)目主頁:https://actanywhere.github.io/
Arxiv論文地址:https://arxiv.org/abs/2401.10822
主要功能
- 前景與背景的完美融合:該模型能夠根據(jù)前景主體的動(dòng)態(tài)與外觀,自動(dòng)生成與之相匹配的背景,使得二者之間的互動(dòng)顯得自然流暢。
- 基于條件幀的背景生成:用戶可以提供一幅描述新場景的圖像(條件幀),ActAnywhere將基于該圖像生成相應(yīng)的視頻背景。這使用戶能夠指定特定的背景元素,例如特定的建筑物、自然景觀或室內(nèi)環(huán)境。
- 時(shí)間一致性:利用時(shí)間自注意力機(jī)制,ActAnywhere確保生成的視頻在時(shí)間上保持一致性,包括相機(jī)、光照變化及陰影效果。
- 自監(jiān)督學(xué)習(xí):ActAnywhere通過在大規(guī)模人類-場景交互視頻數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練,能夠在沒有人工標(biāo)注的情況下自我學(xué)習(xí)如何生成視頻背景。
- 零樣本學(xué)習(xí)能力:此模型在未進(jìn)行額外訓(xùn)練的情況下,能夠?qū)π碌摹⑽匆娺^的數(shù)據(jù)(如非人類主體)進(jìn)行生成,顯示出其在背景生成策略上的通用性。
ActAnywhere的工作原理

ActAnywhere通過以下步驟和組件生成具有高度真實(shí)感和時(shí)間連貫性的視頻背景:
- 數(shù)據(jù)準(zhǔn)備:
- 采用前景主體分割算法(如Mask R-CNN)從輸入視頻中提取前景主體的分割序列(S)及相應(yīng)的掩膜(M)。
- 引入一個(gè)條件幀(c),該幀描述所需生成的背景,可以是背景圖像或包含前景與背景的復(fù)合幀。
- 特征編碼:
- 使用預(yù)訓(xùn)練的變分自編碼器(VAE)對前景主體分割序列進(jìn)行編碼,得到潛在特征(?S)。
- 將前景掩膜序列下采樣并與潛在特征對齊,以確保特征維度匹配。
- 擴(kuò)散過程:
- 在訓(xùn)練階段,利用VAE編碼器將原始視頻幀編碼為潛在表示(Z),然后在正向擴(kuò)散中逐步添加高斯噪聲。
- 在測試階段,潛在表示(Z0)初始化為高斯噪聲,并通過逆向擴(kuò)散過程逐步去噪,以生成最終的視頻幀。
- 時(shí)間注意力機(jī)制:
- 在去噪的U-Net模型中插入模塊,這些模塊包括特征投影層和1D時(shí)間自注意力模塊,以確保時(shí)間上的連貫性。
- 通過CLIP圖像編碼器提取條件幀的特征(Fc),并將其注入U(xiǎn)-Net的交叉注意力層中,以確保生成的視頻背景與條件幀保持一致。
- 訓(xùn)練目標(biāo):
- 使用簡化的擴(kuò)散目標(biāo)進(jìn)行訓(xùn)練,旨在預(yù)測添加的噪聲,通過最小化預(yù)測噪聲與真實(shí)噪聲之間的差異來優(yōu)化模型。
- 數(shù)據(jù)增強(qiáng)與處理:
- 在訓(xùn)練過程中,為應(yīng)對不完美的分割掩膜,應(yīng)用隨機(jī)矩形裁剪和圖像腐蝕操作。
- 在測試階段,通過隨機(jī)丟棄分割、掩膜或條件幀來實(shí)現(xiàn)無分類器的引導(dǎo)。
- 模型訓(xùn)練:
- 在大規(guī)模人類-場景交互視頻數(shù)據(jù)集(HiC+)上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含240萬個(gè)視頻。
- 使用AdamW優(yōu)化器,設(shè)定學(xué)習(xí)率為3e-5,凍結(jié)共享的VAE和CLIP編碼器,僅微調(diào)U-Net。
- 生成過程:
- 在測試階段,將前景主體序列和條件幀輸入訓(xùn)練好的模型,模型將生成與前景主體相協(xié)調(diào)的視頻背景。
ActAnywhere的應(yīng)用場景
- 視頻背景替換:ActAnywhere能夠?qū)⒁曨l中的前景主體放置于全新的背景中,這在電影制作、廣告、虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)等領(lǐng)域尤為有用。例如,可以將演員置于虛構(gòu)場景中,或在不實(shí)際拍攝的情況下模擬特定環(huán)境。
- 視覺效果增強(qiáng):在視覺效果(VFX)制作中,ActAnywhere可用于生成復(fù)雜的背景效果,如動(dòng)態(tài)天氣變化、光影效果及人群互動(dòng),而無需實(shí)際拍攝這些元素。
- 創(chuàng)意內(nèi)容制作:藝術(shù)家和內(nèi)容創(chuàng)作者可以利用ActAnywhere快速嘗試并實(shí)現(xiàn)他們的創(chuàng)意構(gòu)想,例如將角色置于不同的歷史時(shí)期或未來世界,或與虛構(gòu)生物互動(dòng)。
- 教育與培訓(xùn):在教育領(lǐng)域,ActAnywhere可用于創(chuàng)建模擬場景,幫助學(xué)生更好地理解復(fù)雜概念或歷史,或用于安全培訓(xùn),模擬緊急情況。
- 游戲與娛樂:游戲開發(fā)者可以使用ActAnywhere生成動(dòng)態(tài)背景,為玩家提供更豐富、更真實(shí)的游戲體驗(yàn)。同時(shí),它也可以應(yīng)用于電影預(yù)告片、音樂視頻及其他娛樂內(nèi)容的制作。
常見問題
- ActAnywhere可以用于哪些類型的視頻? ActAnywhere適用于各種類型的視頻,無論是電影、廣告還是教育視頻,都能有效生成合適的背景。
- 使用ActAnywhere需要什么樣的技術(shù)背景? 雖然ActAnywhere具有強(qiáng)大的自動(dòng)化能力,但用戶需具備一定的技術(shù)基礎(chǔ),以便更好地理解和使用該工具。
- 是否需要額外的硬件支持? 為了獲得最佳效果,建議使用高性能的計(jì)算設(shè)備,因?yàn)橐曨l生成過程需要處理大量的數(shù)據(jù)和模型計(jì)算。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號