FaceLift

FaceLift – Adobe 聯(lián)合加州大學推出的單張圖像到 3D 頭部模型生成技術

FaceLift是什么

FaceLift是由Adobe與加州大學默塞德分校共同開發(fā)的一項創(chuàng)新技術，旨在將單一的人臉圖像轉換為360度的3D頭部模型。該技術采用兩階段的處理流程：首先，利用基于擴散的多視圖生成模型，從一張正面人臉圖像生成一致的側面和背面視圖；接著，將生成的視圖輸入GS-LRM重建器，輸出詳細的3D高斯表示。FaceLift能夠精準地保留個體的身份特征，生成高質量的3D頭部模型，展現出豐富的幾何和紋理細節(jié)。

FaceLift

FaceLift的主要功能

單圖像3D頭部重建：快速而高效地從一張人臉圖像重建出完整的360度3D頭部模型，包括面部及頭發(fā)的精細細節(jié)。
多視圖一致性：生成的3D模型在不同角度下保持一致性，確保從任何視角觀看都能獲得優(yōu)質的視覺效果。
身份特征保持：在重建過程中，準確保留個體的身份特征，即使是在生成不可見視圖時也能確保高度一致性。
4D新視圖合成：支持視頻輸入，實現4D新視圖合成，在時間序列內生成一致的3D模型，適應動態(tài)場景。
與2D重動畫技術的無縫集成：與2D面部重動畫技術完美結合，支持3D面部動畫，為數字娛樂和虛擬現實應用提供強力支持。

FaceLift的技術原理

多視圖擴散模型：
- 輸入處理：利用圖像條件擴散模型，以單張正面人臉圖像為輸入，生成多角度圖像，包括側面和背面視圖。
- 擴散模型核心：采用Stable Diffusion V2-1-unCLIP模型，借助CLIP圖像編碼器生成的嵌入作為條件信號，確保生成圖像的身份與多視圖的一致性。
- 多視圖注意力機制：通過多視圖注意力機制，模型在不同視圖之間共享信息，生成多視角一致的RGB圖像。
GS-LRM重建器：
- 輸入融合：將生成的多視圖圖像及其對應的相機姿態(tài)輸入GS-LRM模型，生成詳細的3D高斯表示。
- 3D高斯表示：使用3D高斯作為基礎表示，特別適合捕捉人類頭部的復雜細節(jié)，如頭發(fā)。每個2D像素對應一個3D高斯，其參數包括RGB顏色、尺度、旋轉四元數、不透明度和射線距離等。
- 變換器架構：GS-LRM采用變換器架構，從一組姿態(tài)圖像中回歸像素對齊的3D高斯，生成詳盡的3D模型。
優(yōu)化與評估：
- 損失函數：在訓練過程中，結合均方誤差和感知損失來優(yōu)化模型，確保生成的3D模型在視覺上與真實圖像高度一致。
- 評估指標：采用PSNR、SSIM、LPIPS和DreamSim等標準評估重建質量，并基于ArcFace進行身份特征保持的評估。