KeySync

KeySync – 帝國理工聯合弗羅茨瓦夫大學推出的口型同步框架

KeySync

KeySync 是由帝國理工學院和弗羅茨瓦夫大合開發的高分辨率口型同步框架，旨在精準將輸入的音頻與視頻中的唇部動作進行對齊。該系統采用兩階段生成方法，首先提取音頻中的關鍵唇部動作生成關鍵幀，然后通過插值技術平滑過渡至中間幀，確保口型與聲音的完美匹配。

KeySync是什么

KeySync 是一款高分辨率口型同步框架，由帝國理工學院與弗羅茨瓦夫大學共同推出，能夠將輸入音頻與視頻中的口型動作準確對齊。該系統采用了兩階段框架，首先生成關鍵幀以捕捉音頻中的主要唇部動作，接著通過插值生成流暢的過渡幀。此外，KeySync 引入了創新的掩碼策略，有效減少了輸入視頻中的表情泄露，并使用視頻分割模型自動處理遮擋問題。相比其他現有技術，KeySync 在視覺質量、時間連貫性以及唇部同步的準確性方面表現更為優異，廣泛適用于自動配音等實際場景。

KeySync的主要功能

高分辨率口型同步：生成與輸入音頻高度對齊的高清（512×512）視頻，適應多種實際應用。
減少表情泄露：有效降低輸入視頻中的表情泄露，提升整體同步效果。
遮擋處理：在推理過程中自動識別并排除遮擋物（如手部、物體等），確保生成視頻的自然性。
提升視覺質量：在多個量化指標和用戶研究中表現卓越，生成的視頻清晰度和連貫性顯著提高。

KeySync的技術原理

兩階段生成框架：
- 關鍵幀生成：首先生成一組稀疏的關鍵幀，以捕捉音頻中的主要唇部動作，確保每個關鍵幀準確反映音頻內容，同時保持人物身份特征。
- 插值生成：在生成的關鍵幀之間進行插值，制作出平滑且時間連貫的中間幀，以實現流暢的唇部動作過渡。
潛擴散模型：此模型在低維潛空間中進行去噪，提高計算效率，通過逐步去除噪聲，將隨機噪聲轉化為結構化的視頻數據。
掩碼策略：通過計算面部關鍵點，設計覆蓋下臉區域的掩碼，保留必要的上下文信息，以避免表情泄露。在推理時，結合預訓練的視頻分割模型（如 SAM2），自動識別和排除遮擋物，確保生成的唇部區域與遮擋物自然融合。
音頻與視頻對齊：使用 HuBERT 音頻編碼器將原始音頻轉換為特征表示，并基于注意力機制將其嵌入視頻生成模型中，確保生成的唇部動作與音頻的完美對齊。
損失函數：結合潛空間損失與像素空間損失（L2 損失），以優化視頻生成質量，確保生成的唇部區域與音頻對齊。