PersonaTalk是一款由字節(jié)跳動開發(fā)的先進(jìn)視覺配音工具,基于注意力機制的雙階段框架,能夠?qū)崿F(xiàn)高保真度和個性化的唇形同步視頻合成。它不僅能確保合成視頻中的嘴型與輸入音頻精準(zhǔn)匹配,還能保留說話者獨特的表達(dá)風(fēng)格和面部細(xì)節(jié)。PersonaTalk在視覺質(zhì)量、唇形同步精度及個性化保留方面表現(xiàn)出色,相較于現(xiàn)有技術(shù)如Wav2Lip、VideoReTalking、DINet和IP_LAP具有明顯優(yōu)勢。
PersonaTalk是什么
PersonaTalk是字節(jié)跳動推出的一個創(chuàng)新型工具,它利用基于注意力機制的雙階段框架來實現(xiàn)個性化的視覺配音。通過精準(zhǔn)的唇形同步和獨特的說話風(fēng)格保留,PersonaTalk為用戶提供了高質(zhì)量的視頻合成體驗。其工作流程分為兩個階段:第一階段專注于風(fēng)格感知的音頻編碼和唇形同步幾何生成,第二階段則通過雙重注意力機制的面部渲染器進(jìn)行紋理渲染。PersonaTalk的表現(xiàn)超越了許多現(xiàn)有技術(shù),能夠達(dá)到與特定人方法相媲美的效果。
PersonaTalk的主要功能
- 唇形同步:確保視頻中人物的嘴型動作與輸入音頻精確匹配。
- 個性保留:在視頻合成過程中,保留說話者的獨特風(fēng)格和面部特征。
- 風(fēng)格感知:通過分析說話者的3D面部幾何信息,學(xué)習(xí)并融入其說話風(fēng)格到音頻特征中。
- 雙重注意力面部渲染:利用Lip-Attention和Face-Attention兩個并行的注意力機制,分別處理唇部和其他面部區(qū)域的紋理渲染,生成具有豐富細(xì)節(jié)的面部圖像。
PersonaTalk的技術(shù)原理
- 幾何構(gòu)建:
- 風(fēng)格感知音頻編碼:利用HuBERT等預(yù)訓(xùn)練模型將音頻信號轉(zhuǎn)化為豐富的語音表示,通過交叉注意力層將說話風(fēng)格融入音頻特征。
- 唇形同步幾何生成:根據(jù)風(fēng)格化的音頻特征驅(qū)動說話者的模板幾何形狀,通過多個交叉注意力和自注意力層生成與音頻同步的唇形幾何形狀。
- 面部渲染:
- 幾何與紋理編碼:將參考視頻的幾何形狀和紋理編碼到潛在空間,以便后續(xù)處理。
- 雙重注意力紋理采樣:基于兩個并行的交叉注意力層(Lip-Attention和Face-Attention),分別從不同的參考幀中采樣唇部和面部的紋理。
- 參考幀選擇策略:為唇部和面部紋理選擇不同的參考幀,增強紋理采樣的多樣性和全局一致性。
- 紋理解碼:將采樣的紋理從潛在空間解碼回像素空間,保護(hù)面部幾何結(jié)構(gòu),生成最終的面部圖像。
PersonaTalk的項目地址
- 項目官網(wǎng):grisoon.github.io/PersonaTalk
- arXiv技術(shù)論文:https://arxiv.org/pdf/2409.05379
PersonaTalk的應(yīng)用場景
- 電影和視頻制作:在電影后期制作中,PersonaTalk可為角色配音,尤其在原始錄音不滿意或需要更改語言時,生成與角色嘴型同步的配音視頻。
- 視頻游戲:在游戲開發(fā)中,用于生成非玩家角色(NPC)的自然對話,提升游戲的沉浸體驗。
- 虛擬助手和數(shù)字人:為虛擬助手或數(shù)字人提供更自然、真實的語音和面部表情同步,增強用戶交互體驗。
- 語言學(xué)習(xí)應(yīng)用:在語言學(xué)習(xí)軟件中,生成教師或虛擬角色的唇形同步視頻,幫助學(xué)習(xí)者更好地模仿發(fā)音。
- 新聞和媒體廣播:用于將新聞主播的講話翻譯成不同語言,同時保持面部表情和嘴型,提高多語言廣播的自然性和準(zhǔn)確性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...