KeySync – 帝國理工聯合弗羅茨瓦夫大學推出的口型同步框架
KeySync 是由帝國理工學院和弗羅茨瓦夫大合開發的高分辨率口型同步框架,旨在精準將輸入的音頻與視頻中的唇部動作進行對齊。該系統采用兩階段生成方法,首先提取音頻中的關鍵唇部動作生成關鍵幀,然后通過插值技術平滑過渡至中間幀,確??谛团c聲音的完美匹配。
KeySync是什么
KeySync 是一款高分辨率口型同步框架,由帝國理工學院與弗羅茨瓦夫大學共同推出,能夠將輸入音頻與視頻中的口型動作準確對齊。該系統采用了兩階段框架,首先生成關鍵幀以捕捉音頻中的主要唇部動作,接著通過插值生成流暢的過渡幀。此外,KeySync 引入了創新的掩碼策略,有效減少了輸入視頻中的表情泄露,并使用視頻分割模型自動處理遮擋問題。相比其他現有技術,KeySync 在視覺質量、時間連貫性以及唇部同步的準確性方面表現更為優異,廣泛適用于自動配音等實際場景。
KeySync的主要功能
- 高分辨率口型同步:生成與輸入音頻高度對齊的高清(512×512)視頻,適應多種實際應用。
- 減少表情泄露:有效降低輸入視頻中的表情泄露,提升整體同步效果。
- 遮擋處理:在推理過程中自動識別并排除遮擋物(如手部、物體等),確保生成視頻的自然性。
- 提升視覺質量:在多個量化指標和用戶研究中表現卓越,生成的視頻清晰度和連貫性顯著提高。
KeySync的技術原理
- 兩階段生成框架:
- 關鍵幀生成:首先生成一組稀疏的關鍵幀,以捕捉音頻中的主要唇部動作,確保每個關鍵幀準確反映音頻內容,同時保持人物身份特征。
- 插值生成:在生成的關鍵幀之間進行插值,制作出平滑且時間連貫的中間幀,以實現流暢的唇部動作過渡。
- 潛擴散模型:此模型在低維潛空間中進行去噪,提高計算效率,通過逐步去除噪聲,將隨機噪聲轉化為結構化的視頻數據。
- 掩碼策略:通過計算面部關鍵點,設計覆蓋下臉區域的掩碼,保留必要的上下文信息,以避免表情泄露。在推理時,結合預訓練的視頻分割模型(如 SAM2),自動識別和排除遮擋物,確保生成的唇部區域與遮擋物自然融合。
- 音頻與視頻對齊:使用 HuBERT 音頻編碼器將原始音頻轉換為特征表示,并基于注意力機制將其嵌入視頻生成模型中,確保生成的唇部動作與音頻的完美對齊。
- 損失函數:結合潛空間損失與像素空間損失(L2 損失),以優化視頻生成質量,確保生成的唇部區域與音頻對齊。
KeySync的項目地址
- 項目官網:https://antonibigata.github.io/KeySync/
- GitHub倉庫:https://github.com/antonibigata/keysync
- HuggingFace模型庫:https://huggingface.co/toninio19/keysync
- arXiv技術論文:https://arxiv.org/pdf/2505.00497
- 在線體驗Demo:https://huggingface.co/spaces/toninio19/keysync-demo
KeySync的應用場景
- 自動配音:廣泛應用于影視、廣告等多語言內容制作,顯著提升配音與唇部動作的對齊效果。
- 虛擬形象:為虛擬角色生成同步的唇部動作,增強其真實感和表現力。
- 視頻會議:優化遠程溝通中的唇部同步,提升用戶的交互體驗。
- 無障礙內容:幫助聽力障礙人士更好地理解視頻內容,提升信息獲取的便利性。
- 內容修復:對視頻中的唇部動作進行修復或替換,提升整體內容的質量。
常見問題
- KeySync支持哪些格式的音頻和視頻? KeySync支持多種常見的音頻和視頻格式,具體格式可在項目官網查看。
- 使用KeySync需要什么樣的硬件配置? 推薦使用具備較高性能的GPU以確保最佳的運行效率和生成質量。
- KeySync提供的輸出視頻質量如何? KeySync生成的視頻質量高達512×512像素,圖像清晰且動作流暢。
- 如何獲取KeySync的最新更新和功能? 用戶可以通過關注項目的GitHub倉庫和官網獲取最新的更新信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...