ACTalker – 港科大聯(lián)合騰訊、清華推出的端到端視頻擴散框架

ACTalker是什么
ACTalker 是一款創(chuàng)新的視頻生成框架,旨在生成逼真的說話人頭部視頻。該系統(tǒng)能夠靈活地處理多種驅(qū)動信號,包括音頻和面部表情,支持單信號與多信號的控制。在其核心架構(gòu)中,ACTalker 采用了并行的 Mamba 結(jié)構(gòu),通過多個分支控制不同的面部區(qū)域,結(jié)合門控機制和掩碼丟棄策略,實現(xiàn)自然且靈活的視頻生成。在 CelebV-HQ 數(shù)據(jù)集上,ACTalker 的 Sync-C 和 Sync-D 分?jǐn)?shù)分別達(dá)到 5.317 和 7.869,而 FVD-Inc 分?jǐn)?shù)為 232.374,充分展現(xiàn)了其卓越的音頻同步能力和視頻質(zhì)量。
ACTalker的主要功能
- 靈活的信號控制:ACTalker 支持單一和多種信號的控制,可以利用音頻、面部表情等多種信號生成自然流暢的說話人視頻。
- 協(xié)調(diào)一致的視頻生成:通過 Mamba 結(jié)構(gòu),驅(qū)動信號能夠在時間和空間兩個維度內(nèi)精確操控特征標(biāo)記,確保生成的視頻在這些維度上自然協(xié)調(diào)。
- 高品質(zhì)視頻輸出:實驗結(jié)果表明,ACTalker 能夠生成自然且逼真的面部視頻,在多信號控制下,Mamba 層能夠無縫地整合各種驅(qū)動模態(tài),確保視頻生成過程中沒有沖突。
ACTalker的技術(shù)原理
- 并行 Mamba 結(jié)構(gòu):ACTalker 采用并行 Mamba 結(jié)構(gòu),包含多個分支,每個分支利用的驅(qū)動信號(如音頻和表情)來控制特定的面部區(qū)域。這種設(shè)計使得不同模態(tài)信號可以同時作用于視頻生成,不相互干擾,從而實現(xiàn)多信號控制。
- 門控機制:在各個分支中實施了門控機制,訓(xùn)練階段會隨機開啟或關(guān)閉,而在推理階段則可以根據(jù)需求進(jìn)行手動調(diào)整。這一機制為視頻生成提供了靈活的控制選項,支持在不同情境下選擇使用單一或多種信號。
- 掩碼丟棄策略(Mask-Drop):ACTalker 引入了掩碼丟棄策略,使每個驅(qū)動信號能夠控制相應(yīng)的面部區(qū)域。在訓(xùn)練過程中,策略通過隨機丟棄與控制區(qū)域無關(guān)的特征標(biāo)記,增強驅(qū)動信號的有效性,同時提升生成內(nèi)容的質(zhì)量,避免控制沖突。
- 狀態(tài)空間建模(SSM):為確保視頻在時間和空間上的自然協(xié)調(diào),ACTalker 采用狀態(tài)空間建模(SSM)技術(shù),支持驅(qū)動信號在每個分支中跨時間和空間的特征標(biāo)記操控,實現(xiàn)自然的面部動作協(xié)調(diào)。
- 視頻擴散模型基礎(chǔ):ACTalker 基于視頻擴散模型構(gòu)建,在去噪過程中引入多分支控制模塊,每個 Mamba 分支負(fù)責(zé)處理特定模態(tài)信號,通過門控機制動態(tài)調(diào)整各模態(tài)的影響權(quán)重。
ACTalker的項目地址
- 項目官網(wǎng):https://harlanhong.github.io/publications/actalker
- Github倉庫:https://github.com/harlanhong/ACTalker
- HuggingFace模型庫:https://huggingface.co/papers/2504.02542
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.02542
ACTalker的應(yīng)用場景
- 虛擬主播:通過多種信號控制生成自然流暢的說話頭視頻,ACTalker 能夠讓虛擬主播更具生動性,提升與觀眾的互動性,增強觀看體驗。
- 遠(yuǎn)程會議:在遠(yuǎn)程會議中,ACTalker 可利用音頻和參會者面部表情生成自然的說話頭視頻,解決因網(wǎng)絡(luò)延遲導(dǎo)致的口型與聲音不同步的問題,提升遠(yuǎn)程交流的真實感。
- 在線教育:在在線教育場景中,教師可借助 ACTalker 生成生動的說話頭視頻,使教學(xué)內(nèi)容更加有趣,吸引學(xué)生注意力,提升教學(xué)效果。
- 虛擬現(xiàn)實與增強現(xiàn)實:在 VR 和 AR 應(yīng)用中,ACTalker 能夠生成與虛擬環(huán)境或增強現(xiàn)實場景完美匹配的說話頭視頻。
- 娛樂與游戲:在娛樂和游戲領(lǐng)域,ACTalker 可以為角色生成自然的說話頭視頻,增強角色的表現(xiàn)力和代入感。
常見問題
- ACTalker支持哪些信號類型? ACTalker 支持音頻、表情等多種信號類型,可以靈活控制生成的視頻。
- 如何訪問ACTalker的代碼和模型? 您可以通過項目官網(wǎng)或 Github 倉庫訪問 ACTalker 的代碼與模型。
- ACTalker的生成視頻質(zhì)量如何? ACTalker 在多項實驗中表現(xiàn)出色,生成的視頻質(zhì)量高且自然,音頻同步性能優(yōu)異。
- ACTalker適用于哪些行業(yè)? ACTalker 可廣泛應(yīng)用于虛擬主播、遠(yuǎn)程會議、在線教育、虛擬現(xiàn)實、增強現(xiàn)實以及娛樂和游戲等領(lǐng)域。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號