FaceShot

FaceShot – 同濟大合上海 AI Lab等推出的肖像動畫生成框架

FaceShot

FaceShot是什么

FaceShot是由同濟大學、上海 AI Lab和南京理工大合開發的一款創新型肖像動畫生成框架。該系統采用外觀引導的地標匹配模塊和基于坐標的地標重定位模塊，能夠為多種角色生成準確且穩定的地標序列。利用潛在擴散模型的語義關聯性，FaceShot能夠跨越不同角色類型生成豐富的面部動作序列。通過將生成的地標序列輸入到預訓練的地標驅動動畫模型中，FaceShot能夠生成高質量的動畫視頻。它突破了對真實肖像地標的依賴，適用于任何風格化角色及驅動視頻，或作為插件與其他地標驅動動畫模型兼容使用，大幅提升整體性能。

FaceShot的主要功能

角色動畫生成：為各種角色類型生成自然流暢的面部動畫，同時保留角色的獨特特征。
跨領域動畫：支持將人類視頻驅動的動畫擴展到非人類角色（如玩具、動物等），拓寬了肖像動畫的應用范圍。
無需訓練：無需對每個角色或驅動視頻進行額外訓練或調整，即可直接生成高質量動畫。
兼容性：能夠作為插件與任何地標驅動的動畫模型無縫集成。

FaceShot的技術原理

外觀引導的地標匹配模塊：基于潛在擴散模型的語義關系，結合外觀先驗知識，為任意角色生成精準的面部地標。通過DDIM逆過程從參考和目標圖像中提取擴散特征，并利用圖像提示減少不同領域間的外觀差異。采用余弦距離進行地標匹配，確保地標在語義上的一致性，并引入外觀畫廊進一步優化匹配效果。
基于坐標的地標重定位模塊：通過坐標系變換捕捉驅動視頻中的微小面部動作，從而生成與之對齊的地標序列。該模塊分為全局和局部兩個階段，全局負責面部的整體平移與旋轉，而局部則分別處理眼睛、嘴巴、鼻子、眉毛及面部邊界等部位的相對和點重定位。基于簡單的坐標變換公式，該模塊能夠精確捕捉面部的全局和局部，生成穩定的地標序列。
地標驅動的動畫模型：該模塊將生成的地標序列輸入預訓練的動畫模型（如MOFA-Video），生成最終動畫視頻。通過將地標序列作為附加條件輸入到動畫模型的U-Net中，確保模型能夠精確跟蹤地標序列中的。基于這種方式，動畫模型能夠使用地標序列生成與驅動視頻一致的動畫效果，保持角色的視覺身份，從而實現高質量的肖像動畫生成。