OmniSync – 人民大合快手、清華推出的通用對(duì)口型框架
OmniSync是一款由中國人民大學(xué)、快手科技和清華大學(xué)攜手打造的通用對(duì)口型框架,它基于擴(kuò)散變換器技術(shù),實(shí)現(xiàn)了視頻中人物口型與語音的精確同步。OmniSync采用無掩碼訓(xùn)練方式,直接編輯視頻幀,無需參考幀或顯式掩碼,支持無限時(shí)長(zhǎng)推理,同時(shí)確保面部動(dòng)態(tài)的自然流暢和身份的一致性。它還引入了流匹配和動(dòng)態(tài)時(shí)空分類器引導(dǎo)(DS-CFG)機(jī)制,解決了音頻信號(hào)弱的問題,從而實(shí)現(xiàn)精準(zhǔn)的口型同步。
### OmniSync:口型同步技術(shù)的革新者
OmniSync,這款由頂尖學(xué)府和科技巨頭聯(lián)合推出的創(chuàng)新產(chǎn)品,正在重新定義視頻口型同步的標(biāo)準(zhǔn)。它不僅僅是一個(gè)工具,更是一項(xiàng)技術(shù)突破,旨在讓視頻中的口型與聲音完美契合。
### OmniSync的核心優(yōu)勢(shì)
* **無縫編輯,無限可能**:OmniSync采用無掩碼訓(xùn)練范式,直接編輯視頻幀,擺脫了對(duì)參考幀或掩碼的依賴,實(shí)現(xiàn)無限時(shí)長(zhǎng)推理,讓口型同步不再受限于時(shí)間。
* **身份保持,栩栩如生**:在精準(zhǔn)修改嘴部區(qū)域的同時(shí),OmniSync能夠確保頭部姿態(tài)和人物身份的穩(wěn)定一致,讓視頻人物更具真實(shí)感。
* **音頻增強(qiáng),精準(zhǔn)同步**:通過動(dòng)態(tài)時(shí)空引導(dǎo)機(jī)制,OmniSync有效解決了音頻信號(hào)弱的問題,確保口型同步的準(zhǔn)確性,讓聲音與畫面完美融合。
* **廣泛兼容,應(yīng)用無限**:OmniSync適用于各種場(chǎng)景,包括風(fēng)格化角色、非人類實(shí)體以及AI生成內(nèi)容,拓展了口型同步技術(shù)的應(yīng)用邊界。
* **自然流暢,渾然天成**:OmniSync在無限時(shí)長(zhǎng)推理的同時(shí),依然能夠保持自然的面部動(dòng)態(tài)和時(shí)間一致性,讓觀看體驗(yàn)更加流暢。
* **遮擋無懼,穩(wěn)定可靠**:即使在面部遮擋等復(fù)雜情況下,OmniSync也能保持高質(zhì)量的口型同步,確保視頻的視覺效果。
### OmniSync的技術(shù)基石
* **擴(kuò)散變換器,幀間編輯**:基于擴(kuò)散變換器(Diffusion Transformers),OmniSync進(jìn)行直接跨幀編輯,無需顯式掩碼或參考幀。通過迭代去噪學(xué)習(xí)映射函數(shù),并引入時(shí)間步依賴采樣策略,確保學(xué)習(xí)的穩(wěn)定性。
* **漸進(jìn)噪聲初始化,空間一致**:基于流匹配(Flow Matching)技術(shù),將控制噪聲注入到原始幀中,僅執(zhí)行最后的去噪步驟,保持空間一致性,實(shí)現(xiàn)嘴部區(qū)域的精確修改,有效避免姿態(tài)不一致和身份漂移問題。
* **動(dòng)態(tài)時(shí)空分類器引導(dǎo),精細(xì)控制**:DS-CFG機(jī)制提供了對(duì)音頻影響的精細(xì)控制,通過時(shí)空自適應(yīng)引導(dǎo),平衡音頻條件強(qiáng)度??臻g自適應(yīng)引導(dǎo)矩陣集中引導(dǎo)強(qiáng)度在嘴部區(qū)域,時(shí)間自適應(yīng)引導(dǎo)則隨著去噪過程的推進(jìn),逐漸降低引導(dǎo)強(qiáng)度,確??谛屯降臏?zhǔn)確性和自然度。
### 探索OmniSync的世界
* **項(xiàng)目官網(wǎng)**:https://ziqiaopeng.github.io/OmniSync/
* **技術(shù)論文**:https://arxiv.org/pdf/2505.21448
### OmniSync的應(yīng)用前景
* **影視后期制作**:為電影、電視劇等影視作品實(shí)現(xiàn)角色口型與配音的完美匹配,提升觀影體驗(yàn)。
* **虛擬現(xiàn)實(shí)體驗(yàn)**:為虛擬角色提供逼真的口型同步,增強(qiáng)沉浸感和交互性,讓虛擬世界更加真實(shí)。
* **AI內(nèi)容創(chuàng)作**:提升AI生成視頻中口型同步的自然度,讓AI生成的內(nèi)容更具吸引力。
* **遠(yuǎn)程視頻會(huì)議**:改善遠(yuǎn)程通信中的口型同步效果,提升溝通效率和體驗(yàn)。
* **游戲開發(fā)**:增強(qiáng)游戲角色的口型表現(xiàn),提升游戲的互動(dòng)性和沉浸感。