AnchorCrafter：中科院與騰訊攜手打造智能虛擬主播實(shí)現(xiàn)高效帶貨新模式

AnchorCrafter是一款基于擴(kuò)散模型的智能視頻制作系統(tǒng)，專(zhuān)為自動(dòng)生成高保真度的主播風(fēng)格產(chǎn)品推廣視頻而設(shè)計(jì)。該系統(tǒng)通過(guò)整合人-物交互（HOI）與姿態(tài)引導(dǎo)的人體視頻生成技術(shù)，能夠高度還原物體的外觀與，并有效管理復(fù)雜的人物與物體之間的互動(dòng)。

AnchorCrafter是什么

AnchorCrafter是一個(gè)創(chuàng)新的智能視頻制作軟件，致力于自動(dòng)生成具有主播風(fēng)格的高質(zhì)量產(chǎn)品推廣視頻。該系統(tǒng)利用整合人-物交互（HOI）技術(shù)，結(jié)合姿態(tài)引導(dǎo)的人體視頻生成，確保對(duì)物體外觀和的精準(zhǔn)還原，并管理復(fù)雜的人物與物體交互。通過(guò)采用HOI-外觀感知和HOI-注入技術(shù)，以及HOI區(qū)域重加權(quán)損失訓(xùn)練目標(biāo)，AnchorCrafter能夠在細(xì)節(jié)上進(jìn)行深度學(xué)習(xí)，確保視頻生成過(guò)程中的人物形象和動(dòng)作的一致性。相較于傳統(tǒng)方法，AnchorCrafter在物體外觀保持、交互感知及視頻質(zhì)量上表現(xiàn)出色，為在線(xiàn)廣告和消費(fèi)者互動(dòng)提供了全新的可能性。

AnchorCrafter的主要功能

高質(zhì)量視頻生成：自動(dòng)創(chuàng)建高保真度的主播風(fēng)格產(chǎn)品推廣視頻。
人-物交互（HOI）集成：將人物與物體的交互自然地融入視頻中，提升視頻的真實(shí)感和互動(dòng)性。
外觀保持：在視頻中保持物體的外觀細(xì)節(jié)，確保從多視角觀察時(shí)物體的外觀準(zhǔn)確無(wú)誤。
控制：精確控制物體的軌跡，與人物動(dòng)作協(xié)調(diào)一致。
互遮擋管理：處理人物與物體交互時(shí)的遮擋問(wèn)題，保持視頻的連貫性和自然性。
細(xì)節(jié)增強(qiáng)學(xué)習(xí)：基于HOI區(qū)域重加權(quán)損失在訓(xùn)練過(guò)程中增強(qiáng)對(duì)物體細(xì)節(jié)的學(xué)習(xí)。

AnchorCrafter的技術(shù)原理

視頻擴(kuò)散模型：基于擴(kuò)散模型架構(gòu)，利用擴(kuò)散UNet和變分自編碼器（VAE）處理視頻幀，將視頻序列編碼到潛在空間，從噪聲中重建高質(zhì)量的視頻幀。
HOI-外觀感知（HOI-appearance perception）：
- 多視角特征融合：通過(guò)多個(gè)視角下的物體參考圖像提取物體外觀特征，增強(qiáng)模型對(duì)物體形狀和紋理的識(shí)別能力。
- 人-物雙適配器：在替換UNet中的交叉注意力層，實(shí)現(xiàn)人物與物體特征的更好分離，避免外觀混淆。
HOI-注入（HOI-motion injection）：
- 物體軌跡控制：利用深度圖作為輸入，通過(guò)輕量級(jí)卷積網(wǎng)絡(luò)處理深度信息，控制視頻中物體的軌跡。
- 互遮擋處理：結(jié)合3D手部網(wǎng)格輸入，處理人物手部與物體交互時(shí)的遮擋問(wèn)題，確保交互的自然性和準(zhǔn)確性。
HOI區(qū)域重加權(quán)損失（HOI-region reweighting loss）：在訓(xùn)練過(guò)程中，增加手部-物體交互區(qū)域的權(quán)重，讓模型更加關(guān)注這些區(qū)域，提高物體細(xì)節(jié)的學(xué)習(xí)和生成質(zhì)量。

AnchorCrafter的項(xiàng)目地址

項(xiàng)目官網(wǎng)：cangcz.github.io/Anchor-Crafter
GitHub倉(cāng)庫(kù)：https://github.com/cangcz/AnchorCrafter（即將開(kāi)放）
arXiv技術(shù)論文：https://arxiv.org/pdf/2411.17383

AnchorCrafter的應(yīng)用場(chǎng)景

在線(xiàn)購(gòu)物平臺(tái)：自動(dòng)生成產(chǎn)品介紹視頻，提升商品頁(yè)面的吸引力和用戶(hù)購(gòu)買(mǎi)意愿。
社交媒體營(yíng)銷(xiāo)：為品牌和個(gè)人創(chuàng)作者提供工具，制作吸引人的產(chǎn)品推廣內(nèi)容，增加粉絲互動(dòng)和品牌曝光。
電視廣告制作：快速制作高質(zhì)量的電視廣告，減少傳統(tǒng)拍攝成本和時(shí)間。
虛擬直播帶貨：在直播中使用虛擬主播展示和推廣產(chǎn)品，提高直播效率和觀眾體驗(yàn)。
教育培訓(xùn)：制作教學(xué)視頻，模擬實(shí)際操作過(guò)程，如烹飪、手工制作等，增強(qiáng)學(xué)習(xí)效果。

閱讀原文