ACTalker – 港科大聯(lián)合騰訊、清華推出的端到端視頻擴(kuò)散框架
ACTalker是什么
ACTalker 是一款創(chuàng)新的視頻生成框架,旨在生成逼真的說(shuō)話人頭部視頻。該系統(tǒng)能夠靈活地處理多種驅(qū)動(dòng)信號(hào),包括音頻和面部表情,支持單信號(hào)與多信號(hào)的控制。在其核心架構(gòu)中,ACTalker 采用了并行的 Mamba 結(jié)構(gòu),通過(guò)多個(gè)分支控制不同的面部區(qū)域,結(jié)合門控機(jī)制和掩碼丟棄策略,實(shí)現(xiàn)自然且靈活的視頻生成。在 CelebV-HQ 數(shù)據(jù)集上,ACTalker 的 Sync-C 和 Sync-D 分?jǐn)?shù)分別達(dá)到 5.317 和 7.869,而 FVD-Inc 分?jǐn)?shù)為 232.374,充分展現(xiàn)了其卓越的音頻同步能力和視頻質(zhì)量。
ACTalker的主要功能
- 靈活的信號(hào)控制:ACTalker 支持單一和多種信號(hào)的控制,可以利用音頻、面部表情等多種信號(hào)生成自然流暢的說(shuō)話人視頻。
- 協(xié)調(diào)一致的視頻生成:通過(guò) Mamba 結(jié)構(gòu),驅(qū)動(dòng)信號(hào)能夠在時(shí)間和空間兩個(gè)維度內(nèi)精確操控特征標(biāo)記,確保生成的視頻在這些維度上自然協(xié)調(diào)。
- 高品質(zhì)視頻輸出:實(shí)驗(yàn)結(jié)果表明,ACTalker 能夠生成自然且逼真的面部視頻,在多信號(hào)控制下,Mamba 層能夠無(wú)縫地整合各種驅(qū)動(dòng)模態(tài),確保視頻生成過(guò)程中沒有沖突。
ACTalker的技術(shù)原理
- 并行 Mamba 結(jié)構(gòu):ACTalker 采用并行 Mamba 結(jié)構(gòu),包含多個(gè)分支,每個(gè)分支利用的驅(qū)動(dòng)信號(hào)(如音頻和表情)來(lái)控制特定的面部區(qū)域。這種設(shè)計(jì)使得不同模態(tài)信號(hào)可以同時(shí)作用于視頻生成,不相互干擾,從而實(shí)現(xiàn)多信號(hào)控制。
- 門控機(jī)制:在各個(gè)分支中實(shí)施了門控機(jī)制,訓(xùn)練階段會(huì)隨機(jī)開啟或關(guān)閉,而在推理階段則可以根據(jù)需求進(jìn)行手動(dòng)調(diào)整。這一機(jī)制為視頻生成提供了靈活的控制選項(xiàng),支持在不同情境下選擇使用單一或多種信號(hào)。
- 掩碼丟棄策略(Mask-Drop):ACTalker 引入了掩碼丟棄策略,使每個(gè)驅(qū)動(dòng)信號(hào)能夠控制相應(yīng)的面部區(qū)域。在訓(xùn)練過(guò)程中,策略通過(guò)隨機(jī)丟棄與控制區(qū)域無(wú)關(guān)的特征標(biāo)記,增強(qiáng)驅(qū)動(dòng)信號(hào)的有效性,同時(shí)提升生成內(nèi)容的質(zhì)量,避免控制沖突。
- 狀態(tài)空間建模(SSM):為確保視頻在時(shí)間和空間上的自然協(xié)調(diào),ACTalker 采用狀態(tài)空間建模(SSM)技術(shù),支持驅(qū)動(dòng)信號(hào)在每個(gè)分支中跨時(shí)間和空間的特征標(biāo)記操控,實(shí)現(xiàn)自然的面部動(dòng)作協(xié)調(diào)。
- 視頻擴(kuò)散模型基礎(chǔ):ACTalker 基于視頻擴(kuò)散模型構(gòu)建,在去噪過(guò)程中引入多分支控制模塊,每個(gè) Mamba 分支負(fù)責(zé)處理特定模態(tài)信號(hào),通過(guò)門控機(jī)制動(dòng)態(tài)調(diào)整各模態(tài)的影響權(quán)重。
ACTalker的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://harlanhong.github.io/publications/actalker
- Github倉(cāng)庫(kù):https://github.com/harlanhong/ACTalker
- HuggingFace模型庫(kù):https://huggingface.co/papers/2504.02542
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.02542
ACTalker的應(yīng)用場(chǎng)景
- 虛擬主播:通過(guò)多種信號(hào)控制生成自然流暢的說(shuō)話頭視頻,ACTalker 能夠讓虛擬主播更具生動(dòng)性,提升與觀眾的互動(dòng)性,增強(qiáng)觀看體驗(yàn)。
- 遠(yuǎn)程會(huì)議:在遠(yuǎn)程會(huì)議中,ACTalker 可利用音頻和參會(huì)者面部表情生成自然的說(shuō)話頭視頻,解決因網(wǎng)絡(luò)延遲導(dǎo)致的口型與聲音不同步的問(wèn)題,提升遠(yuǎn)程交流的真實(shí)感。
- 在線教育:在在線教育場(chǎng)景中,教師可借助 ACTalker 生成生動(dòng)的說(shuō)話頭視頻,使教學(xué)內(nèi)容更加有趣,吸引學(xué)生注意力,提升教學(xué)效果。
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí):在 VR 和 AR 應(yīng)用中,ACTalker 能夠生成與虛擬環(huán)境或增強(qiáng)現(xiàn)實(shí)場(chǎng)景完美匹配的說(shuō)話頭視頻。
- 娛樂與游戲:在娛樂和游戲領(lǐng)域,ACTalker 可以為角色生成自然的說(shuō)話頭視頻,增強(qiáng)角色的表現(xiàn)力和代入感。
常見問(wèn)題
- ACTalker支持哪些信號(hào)類型? ACTalker 支持音頻、表情等多種信號(hào)類型,可以靈活控制生成的視頻。
- 如何訪問(wèn)ACTalker的代碼和模型? 您可以通過(guò)項(xiàng)目官網(wǎng)或 Github 倉(cāng)庫(kù)訪問(wèn) ACTalker 的代碼與模型。
- ACTalker的生成視頻質(zhì)量如何? ACTalker 在多項(xiàng)實(shí)驗(yàn)中表現(xiàn)出色,生成的視頻質(zhì)量高且自然,音頻同步性能優(yōu)異。
- ACTalker適用于哪些行業(yè)? ACTalker 可廣泛應(yīng)用于虛擬主播、遠(yuǎn)程會(huì)議、在線教育、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)以及娛樂和游戲等領(lǐng)域。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...