EDTalk

EDTalk – 上海交大聯合網易推出高效解耦的情感說話頭像合成模型

EDTalk是什么

EDTalk是由上海交通大學與網易共同研發的一種音頻驅動唇部同步模型。該技術能夠控制嘴型、頭部姿態和情感表情。用戶只需上傳一張照片、一段音頻及一段參考視頻，即可讓照片中的人物進行口語表達，并支持定制情感，如快樂、憤怒和悲傷等。EDTalk通過三個輕量級模塊將面部動態分解為表示嘴型、姿態和情感的潛在空間，每個空間由一組可學習的基向量構成，其線性組合定義特定的動作。這種高效的解耦訓練機制不僅提升了訓練效率，還降低了資源消耗，初學者也能輕松上手，探索創新應用。

EDTalk

EDTalk的主要功能

音頻驅動唇部同步：通過上傳的圖片和音頻，EDTalk可以驅動圖片中的人物進行口語表達，實現嘴型的精準同步。
自定義情感表達：EDTalk支持用戶自定義情感，如快樂、憤怒和悲傷，從而使合成視頻中的人物表情與音頻情緒高度一致。
Audio-to-Motion模塊：該模塊能夠根據音頻輸入自動生成與音頻節奏相匹配的嘴唇動作及符合語境的表情。
支持視頻和音頻輸入：EDTalk能夠在視頻和音頻輸入下生成高度精準的情感表達頭像。

EDTalk的技術原理

高效解耦框架：EDTalk利用三個輕量級模塊將面部動態分解為三個的潛在空間，分別表示嘴型、頭部姿態和情感表情。這種解耦技術使得對面部動作的控制可以進行，互不干擾。
可學習的基向量表征：每個潛在空間由一組可學習的基向量構成，這些基向量的線性組合能夠定義特定的動作。這種設計使得EDTalk能夠靈活地合成具有特定嘴型、姿態和表情的講話人頭像視頻。
正交性和高效訓練策略：為確保各空間之間的性并加快訓練速度，EDTalk在基向量之間進行了正交處理，設計了一種高效的訓練策略，將動作責任分配給每個空間，避免依賴外部知識。