GAS – 卡內基梅隆聯合上海 AI Lab 等推出的單圖生成3D人體框架
GAS(Generative Avatar Synthesis from a Single Image)是一項由卡內基梅隆大學、上海人工智能實驗室和斯坦福大學的研究團隊提出的重要技術,旨在通過單張圖像生成高質量、視角一致且動態連貫的虛擬形象。GAS的創新之處在于將回歸型3D人體重建模型與擴散模型的優點相結合,使得從單一圖像生成的虛擬形象在外觀和結構上都顯得異常真實。
GAS是什么
GAS(Generative Avatar Synthesis from a Single Image)是一種先進的框架,旨在從單張圖像中合成高質量的虛擬形象。此技術由卡內基梅隆大學、上海人工智能實驗室及斯坦福大學的研究人員共同開發。GAS的核心在于結合回歸型3D人體重建模型和擴散模型的優勢,通過3D人體重建生成中間的視角或姿態,并將其作為條件輸入到視頻擴散模型中,以實現高質量的視角一致性和時間連貫性。此外,該框架引入了“模式切換器”模塊,以區分視角合成與姿態合成任務,進一步提升生成效果。
GAS的主要功能
- 一致性視角的多視角合成:GAS能夠從單張圖像生成高質量的多視角渲染,確保不同視角下的外觀和結構保持一致。
- 動態姿態動畫的時間連貫性:利用給定的姿態序列,GAS可生成流暢且真實的非剛性形變動畫,確保動態姿態的自然連貫。
- 統一的框架與良好的泛化能力:該技術將視角合成與姿態合成任務相結合,通過共享模型參數和利用大規模真實數據(如網絡視頻)進行訓練,顯著提升模型對真實場景的適應能力。
- 密集外觀提示:基于3D重建模型生成的密集信息作為條件輸入,確保生成的結果在外觀和結構上具有高保真度。
GAS的技術原理
- 3D人體重建與密集條件信號:GAS利用回歸型3D人體重建模型(例如單視角通用人類NeRF)從輸入圖像生成中間視角或姿態,并通過將輸入圖像映射到規范空間生成密集的外觀提示。這些信息為后續的擴散模型提供了豐富的細節和結構信息,從而確保生成結果的高質量和一致性。
- 視頻擴散模型與統一框架:生成的中間視角或姿態作為視頻擴散模型的條件輸入,以此生成高質量的視角一致性和時間連貫性動畫。GAS提出了一種統一框架,將視角合成和姿態合成任務合并,并共享模型參數,從而實現自然的任務泛化。
- 模式切換器:為了有效區分視角合成與姿態合成任務,GAS引入了模式切換器模塊,確保在生成視角時專注于一致性,而生成姿態時則注重真實感變形。
- 真實世界數據的泛化能力:GAS通過結合大規模真實世界視頻(如網絡視頻)進行訓練,顯著提升了對真實場景的適應能力。多樣化的數據來源使得模型能夠應對各種光照、服裝和動作條件。
- 訓練與推理:GAS的訓練過程分為兩個階段:首先訓練3D人體重建模型,然后凍結該模型并訓練視頻擴散模型。在推理階段,依據任務的不同(視角合成或姿態合成)采用不同的分類器引導(CFG)策略。
GAS的項目地址
GAS的應用場景
- 游戲與虛擬現實(VR):GAS能夠從單張圖像生成高質量的虛擬角色,支持多視角和動態姿態的連貫合成,非常適合游戲和虛擬現實應用。
- 影視制作:在影視特效和動畫制作領域,GAS能夠快速生成逼真的虛擬角色,顯著減少傳統建模和動畫制作所需的時間與成本。
- 體育與健身:通過從單張圖像生成動態虛擬形象,GAS可用于創建個性化的動畫,幫助員分析動作或用于健身應用。
- 時尚與服裝設計:GAS能夠生成不同姿態和視角的虛擬形象,幫助設計師快速預覽服裝效果,從而提升設計效率。
常見問題
- GAS生成的虛擬形象能否用于實際應用? 是的,GAS生成的虛擬形象在游戲、影視和其他創意領域都有廣泛的應用潛力。
- 使用GAS需要什么樣的輸入? GAS僅需一張圖像作為輸入,便可生成高質量的虛擬形象。
- GAS的生成速度如何? 生成速度根據模型的復雜程度和硬件性能而有所不同,但整體上,GAS能夠處理實時生成需求。
- GAS的技術是否開放? 是的,GAS的相關技術和論文已在其項目官網和arXiv上公開,歡迎研究人員和開發者探索。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...