ActAnywhere

AI工具1年前 (2024)發(fā)布 AI工具集

ActAnywhere是什么

ActAnywhere是斯坦福大學(xué)與Adobe Research的研究者們聯(lián)合開發(fā)的一款視頻生成模型，專注于視頻背景的自動(dòng)生成，尤其是在需要將前景主體（如人類角色）與新背景無縫融合的場景中。此模型在電影制作及視覺效果（VFX）行業(yè)中表現(xiàn)出色，能夠高效地創(chuàng)建與前景主體相匹配的視頻背景，顯著減少了傳統(tǒng)手動(dòng)合成所需的時(shí)間和精力。

ActAnywhere

官方項(xiàng)目主頁：https://actanywhere.github.io/

Arxiv論文地址：https://arxiv.org/abs/2401.10822

主要功能

前景與背景的完美融合：該模型能夠根據(jù)前景主體的動(dòng)態(tài)與外觀，自動(dòng)生成與之相匹配的背景，使得二者之間的互動(dòng)顯得自然流暢。
基于條件幀的背景生成：用戶可以提供一幅描述新場景的圖像（條件幀），ActAnywhere將基于該圖像生成相應(yīng)的視頻背景。這使用戶能夠指定特定的背景元素，例如特定的建筑物、自然景觀或室內(nèi)環(huán)境。
時(shí)間一致性：利用時(shí)間自注意力機(jī)制，ActAnywhere確保生成的視頻在時(shí)間上保持一致性，包括相機(jī)、光照變化及陰影效果。
自監(jiān)督學(xué)習(xí)：ActAnywhere通過在大規(guī)模人類-場景交互視頻數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練，能夠在沒有人工標(biāo)注的情況下自我學(xué)習(xí)如何生成視頻背景。
零樣本學(xué)習(xí)能力：此模型在未進(jìn)行額外訓(xùn)練的情況下，能夠?qū)π碌摹⑽匆娺^的數(shù)據(jù)（如非人類主體）進(jìn)行生成，顯示出其在背景生成策略上的通用性。

ActAnywhere的工作原理

ActAnywhere

ActAnywhere通過以下步驟和組件生成具有高度真實(shí)感和時(shí)間連貫性的視頻背景：

數(shù)據(jù)準(zhǔn)備：
- 采用前景主體分割算法（如Mask R-CNN）從輸入視頻中提取前景主體的分割序列（S）及相應(yīng)的掩膜（M）。
- 引入一個(gè)條件幀（c），該幀描述所需生成的背景，可以是背景圖像或包含前景與背景的復(fù)合幀。
特征編碼：
- 使用預(yù)訓(xùn)練的變分自編碼器（VAE）對前景主體分割序列進(jìn)行編碼，得到潛在特征（?S）。
- 將前景掩膜序列下采樣并與潛在特征對齊，以確保特征維度匹配。
擴(kuò)散過程：
- 在訓(xùn)練階段，利用VAE編碼器將原始視頻幀編碼為潛在表示（Z），然后在正向擴(kuò)散中逐步添加高斯噪聲。
- 在測試階段，潛在表示（Z0）初始化為高斯噪聲，并通過逆向擴(kuò)散過程逐步去噪，以生成最終的視頻幀。
時(shí)間注意力機(jī)制：
- 在去噪的U-Net模型中插入模塊，這些模塊包括特征投影層和1D時(shí)間自注意力模塊，以確保時(shí)間上的連貫性。
- 通過CLIP圖像編碼器提取條件幀的特征（Fc），并將其注入U(xiǎn)-Net的交叉注意力層中，以確保生成的視頻背景與條件幀保持一致。
訓(xùn)練目標(biāo)：
- 使用簡化的擴(kuò)散目標(biāo)進(jìn)行訓(xùn)練，旨在預(yù)測添加的噪聲，通過最小化預(yù)測噪聲與真實(shí)噪聲之間的差異來優(yōu)化模型。
數(shù)據(jù)增強(qiáng)與處理：
- 在訓(xùn)練過程中，為應(yīng)對不完美的分割掩膜，應(yīng)用隨機(jī)矩形裁剪和圖像腐蝕操作。
- 在測試階段，通過隨機(jī)丟棄分割、掩膜或條件幀來實(shí)現(xiàn)無分類器的引導(dǎo)。
模型訓(xùn)練：
- 在大規(guī)模人類-場景交互視頻數(shù)據(jù)集（HiC+）上進(jìn)行訓(xùn)練，該數(shù)據(jù)集包含240萬個(gè)視頻。
- 使用AdamW優(yōu)化器，設(shè)定學(xué)習(xí)率為3e-5，凍結(jié)共享的VAE和CLIP編碼器，僅微調(diào)U-Net。
生成過程：
- 在測試階段，將前景主體序列和條件幀輸入訓(xùn)練好的模型，模型將生成與前景主體相協(xié)調(diào)的視頻背景。

ActAnywhere的應(yīng)用場景

視頻背景替換：ActAnywhere能夠?qū)⒁曨l中的前景主體放置于全新的背景中，這在電影制作、廣告、虛擬現(xiàn)實(shí)（VR）和增強(qiáng)現(xiàn)實(shí)（AR）等領(lǐng)域尤為有用。例如，可以將演員置于虛構(gòu)場景中，或在不實(shí)際拍攝的情況下模擬特定環(huán)境。
視覺效果增強(qiáng)：在視覺效果（VFX）制作中，ActAnywhere可用于生成復(fù)雜的背景效果，如動(dòng)態(tài)天氣變化、光影效果及人群互動(dòng)，而無需實(shí)際拍攝這些元素。
創(chuàng)意內(nèi)容制作：藝術(shù)家和內(nèi)容創(chuàng)作者可以利用ActAnywhere快速嘗試并實(shí)現(xiàn)他們的創(chuàng)意構(gòu)想，例如將角色置于不同的歷史時(shí)期或未來世界，或與虛構(gòu)生物互動(dòng)。
教育與培訓(xùn)：在教育領(lǐng)域，ActAnywhere可用于創(chuàng)建模擬場景，幫助學(xué)生更好地理解復(fù)雜概念或歷史，或用于安全培訓(xùn)，模擬緊急情況。
游戲與娛樂：游戲開發(fā)者可以使用ActAnywhere生成動(dòng)態(tài)背景，為玩家提供更豐富、更真實(shí)的游戲體驗(yàn)。同時(shí)，它也可以應(yīng)用于電影預(yù)告片、音樂視頻及其他娛樂內(nèi)容的制作。

常見問題

ActAnywhere可以用于哪些類型的視頻？ ActAnywhere適用于各種類型的視頻，無論是電影、廣告還是教育視頻，都能有效生成合適的背景。
使用ActAnywhere需要什么樣的技術(shù)背景？ 雖然ActAnywhere具有強(qiáng)大的自動(dòng)化能力，但用戶需具備一定的技術(shù)基礎(chǔ)，以便更好地理解和使用該工具。
是否需要額外的硬件支持？ 為了獲得最佳效果，建議使用高性能的計(jì)算設(shè)備，因?yàn)橐曨l生成過程需要處理大量的數(shù)據(jù)和模型計(jì)算。

閱讀原文

# AI工具 # AI項(xiàng)目和框架 # 個(gè)性化助手 # 實(shí)時(shí)數(shù)據(jù)分析 # 智能任務(wù)管理 # 自動(dòng)化工作流程 # 跨平臺協(xié)作

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ActAnywhere

ActAnywhere是什么

主要功能

ActAnywhere的工作原理

ActAnywhere的應(yīng)用場景

常見問題

Lepton Search

DemoFusion

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？