OmniSync

OmniSync – 人民大合快手、清華推出的通用對口型框架

OmniSync

OmniSync是一款由中國人民大學、快手科技和清華大學攜手打造的通用對口型框架，它基于擴散變換器技術，實現了視頻中人物口型與語音的精確同步。OmniSync采用無掩碼訓練方式，直接編輯視頻幀，無需參考幀或顯式掩碼，支持無限時長推理，同時確保面部動態的自然流暢和身份的一致性。它還引入了流匹配和動態時空分類器引導（DS-CFG）機制，解決了音頻信號弱的問題，從而實現精準的口型同步。

### OmniSync：口型同步技術的革新者

OmniSync，這款由頂尖學府和科技巨頭聯合推出的創新產品，正在重新定義視頻口型同步的標準。它不僅僅是一個工具，更是一項技術突破，旨在讓視頻中的口型與聲音完美契合。

### OmniSync的核心優勢

* **無縫編輯，無限可能**：OmniSync采用無掩碼訓練范式，直接編輯視頻幀，擺脫了對參考幀或掩碼的依賴，實現無限時長推理，讓口型同步不再受限于時間。
* **身份保持，栩栩如生**：在精準修改嘴部區域的同時，OmniSync能夠確保頭部姿態和人物身份的穩定一致，讓視頻人物更具真實感。
* **音頻增強，精準同步**：通過動態時空引導機制，OmniSync有效解決了音頻信號弱的問題，確保口型同步的準確性，讓聲音與畫面完美融合。
* **廣泛兼容，應用無限**：OmniSync適用于各種場景，包括風格化角色、非人類實體以及AI生成內容，拓展了口型同步技術的應用邊界。
* **自然流暢，渾然天成**：OmniSync在無限時長推理的同時，依然能夠保持自然的面部動態和時間一致性，讓觀看體驗更加流暢。
* **遮擋無懼，穩定可靠**：即使在面部遮擋等復雜情況下，OmniSync也能保持高質量的口型同步，確保視頻的視覺效果。

### OmniSync的技術基石

* **擴散變換器，幀間編輯**：基于擴散變換器（Diffusion Transformers），OmniSync進行直接跨幀編輯，無需顯式掩碼或參考幀。通過迭代去噪學習映射函數，并引入時間步依賴采樣策略，確保學習的穩定性。
* **漸進噪聲初始化，空間一致**：基于流匹配（Flow Matching）技術，將控制噪聲注入到原始幀中，僅執行最后的去噪步驟，保持空間一致性，實現嘴部區域的精確修改，有效避免姿態不一致和身份漂移問題。
* **動態時空分類器引導，精細控制**：DS-CFG機制提供了對音頻影響的精細控制，通過時空自適應引導，平衡音頻條件強度。空間自適應引導矩陣集中引導強度在嘴部區域，時間自適應引導則隨著去噪過程的推進，逐漸降低引導強度，確保口型同步的準確性和自然度。

### 探索OmniSync的世界

* **項目官網**：https://ziqiaopeng.github.io/OmniSync/
* **技術論文**：https://arxiv.org/pdf/2505.21448

### OmniSync的應用前景

* **影視后期制作**：為電影、電視劇等影視作品實現角色口型與配音的完美匹配，提升觀影體驗。
* **虛擬現實體驗**：為虛擬角色提供逼真的口型同步，增強沉浸感和交互性，讓虛擬世界更加真實。
* **AI內容創作**：提升AI生成視頻中口型同步的自然度，讓AI生成的內容更具吸引力。
* **遠程視頻會議**：改善遠程通信中的口型同步效果，提升溝通效率和體驗。
* **游戲開發**：增強游戲角色的口型表現，提升游戲的互動性和沉浸感。

閱讀原文