Pixel3DMM

Pixel3DMM – 慕尼黑聯合倫敦大學等推出的3D人臉重建框架

Pixel3DMM

Pixel3DMM是什么

Pixel3DMM是由慕尼黑工業大學、倫敦大學學院和Synthesia聯合開發的一種單圖像3D人臉重建框架。該框架基于DINO基礎模型，采用專門設計的預測頭，能夠從單幅RGB圖像中精確重建人臉的三維幾何結構。Pixel3DMM在多個評測標準上展現出了卓越的性能，尤其在處理復雜的面部表情和不同角度姿態的人臉圖像時，顯著超過了現有技術。此外，Pixel3DMM引入了一系列新的基準測試，涵蓋了多樣化的面部表情、觀察視角和種族特征，為該領域的研究提供了新的評估標準。

Pixel3DMM的主要功能

高精度的3D人臉重建：能夠從單張RGB圖像中精確重建出人臉的三維幾何特征，包括其形狀、表情和姿態。
處理復雜表情和姿態：特別擅長于復雜面部表情和非正面視角的人臉圖像，能夠有效生成高質量的3D人臉模型。
身份與表情的解耦：從表現性圖像中恢復中性面部幾何，能夠清晰地區分和重建人臉的身份信息與表情信息。

Pixel3DMM的技術原理

預訓練的視覺變換器（Vision Transformer）：基于DINOv2作為主干網絡，提取輸入圖像的特征。DINOv2是一種強大的自監督學習模型，能夠提取豐富的語義特征，為后續的幾何線索預測打下堅實基礎。
預測頭（Prediction Head）：在DINOv2的基礎上，增加額外的變換器塊和上卷積層，將特征圖的分辨率提升至所需尺寸，最終輸出預測的幾何線索，包含表面法線和UV坐標，為3D人臉模型的優化提供重要約束。
FLAME模型擬合：基于預測得到的表面法線和UV坐標作為優化目標，調整FLAME模型的參數以重建3D人臉。FLAME是一個參數化的3D人臉模型，能夠表示人臉的身份、表情和姿態。通過最小化預測的幾何線索與FLAME模型渲染結果之間的差異，優化FLAME模型的參數，以實現高精度的人臉重建。
優化策略：在推理階段，通過最小化預測的幾何線索與FLAME模型渲染結果之間的差異，優化FLAME模型的參數。
數據準備與訓練：使用多個高質量的3D人臉數據集（如NPHM、FaceScape和Ava256），將數據基于非剛性配準統一到FLAME模型的拓撲結構中，訓練預測網絡。這些數據集涵蓋了多種身份、表情、視角和光照條件，確保了模型具有良好的泛化能力。