GAS

GAS – 卡內基梅隆聯合上海 AI Lab 等推出的單圖生成3D人體框架

GAS（Generative Avatar Synthesis from a Single Image）是一項由卡內基梅隆大學、上海人工智能實驗室和斯坦福大學的研究團隊提出的重要技術，旨在通過單張圖像生成高質量、視角一致且動態連貫的虛擬形象。GAS的創新之處在于將回歸型3D人體重建模型與擴散模型的優點相結合，使得從單一圖像生成的虛擬形象在外觀和結構上都顯得異常真實。

GAS是什么

GAS（Generative Avatar Synthesis from a Single Image）是一種先進的框架，旨在從單張圖像中合成高質量的虛擬形象。此技術由卡內基梅隆大學、上海人工智能實驗室及斯坦福大學的研究人員共同開發。GAS的核心在于結合回歸型3D人體重建模型和擴散模型的優勢，通過3D人體重建生成中間的視角或姿態，并將其作為條件輸入到視頻擴散模型中，以實現高質量的視角一致性和時間連貫性。此外，該框架引入了“模式切換器”模塊，以區分視角合成與姿態合成任務，進一步提升生成效果。

GAS

GAS的主要功能

一致性視角的多視角合成：GAS能夠從單張圖像生成高質量的多視角渲染，確保不同視角下的外觀和結構保持一致。
動態姿態動畫的時間連貫性：利用給定的姿態序列，GAS可生成流暢且真實的非剛性形變動畫，確保動態姿態的自然連貫。
統一的框架與良好的泛化能力：該技術將視角合成與姿態合成任務相結合，通過共享模型參數和利用大規模真實數據（如網絡視頻）進行訓練，顯著提升模型對真實場景的適應能力。
密集外觀提示：基于3D重建模型生成的密集信息作為條件輸入，確保生成的結果在外觀和結構上具有高保真度。

GAS的技術原理

3D人體重建與密集條件信號：GAS利用回歸型3D人體重建模型（例如單視角通用人類NeRF）從輸入圖像生成中間視角或姿態，并通過將輸入圖像映射到規范空間生成密集的外觀提示。這些信息為后續的擴散模型提供了豐富的細節和結構信息，從而確保生成結果的高質量和一致性。
視頻擴散模型與統一框架：生成的中間視角或姿態作為視頻擴散模型的條件輸入，以此生成高質量的視角一致性和時間連貫性動畫。GAS提出了一種統一框架，將視角合成和姿態合成任務合并，并共享模型參數，從而實現自然的任務泛化。
模式切換器：為了有效區分視角合成與姿態合成任務，GAS引入了模式切換器模塊，確保在生成視角時專注于一致性，而生成姿態時則注重真實感變形。
真實世界數據的泛化能力：GAS通過結合大規模真實世界視頻（如網絡視頻）進行訓練，顯著提升了對真實場景的適應能力。多樣化的數據來源使得模型能夠應對各種光照、服裝和動作條件。
訓練與推理：GAS的訓練過程分為兩個階段：首先訓練3D人體重建模型，然后凍結該模型并訓練視頻擴散模型。在推理階段，依據任務的不同（視角合成或姿態合成）采用不同的分類器引導（CFG）策略。