Prometheus:一種3D感知的隱空間擴散模型。
原標題:幾秒生成逼真3D場景!浙大&螞蟻等提出Prometheus,泛化媲美Stable Diffusion
文章來源:智猩猩GenAI
內容字數:13193字
Prometheus: 高效的文本到3D場景生成模型
本文介紹了Prometheus,一個面向文本到3D生成的3D感知隱空間擴散模型,能夠高效生成對象級別和場景級別的3D內容。Prometheus采用兩階段訓練框架,并結合了多視角信息和RGB-D數據,在保真度、幾何質量和泛化能力方面取得了顯著進展。
1. 核心創新
Prometheus的主要創新在于其獨特的兩階段訓練框架和對RGB-D隱空間的利用。第一階段訓練一個3D高斯變分自編碼器(GS-VAE),將多視角或單視角RGB-D圖像編碼為像素對齊的3D高斯表示。第二階段訓練一個多視角隱空間擴散模型(MV-LDM),以文本提示和相機姿態為條件,在GS-VAE生成的隱空間中進行生成。這種方法有效地解耦了外觀和幾何信息,提高了生成效率和質量。
2. 兩階段訓練框架
第一階段 (GS-VAE): GS-VAE利用預訓練的圖像編碼器(例如Stable Diffusion編碼器)對多視角RGB-D圖像進行編碼,并通過多視圖Transformer融合多視角信息和相機姿態。解碼器則將融合后的隱空間表示解碼為像素對齊的3D高斯場景。損失函數包含重建損失(MSE和感知損失)和深度損失,以確保重建圖像和幾何信息的準確性。
第二階段 (MV-LDM): MV-LDM基于一個預訓練的文本到圖像擴散模型(例如Stable Diffusion的UNet),在GS-VAE生成的隱空間中進行訓練。它以文本提示和相機姿態為條件,通過迭代去噪過程生成多視角RGB-D隱空間編碼,最終解碼為3D高斯場景。為了平衡多視圖一致性和保真度,采用混合采樣引導和CFG重標定策略。
3. 數據集和實驗結果
Prometheus在9個多視角和單視角數據集的組合上進行訓練,包括物體中心、室內、室外和駕駛場景等。實驗結果表明,Prometheus在3D重建和文本到3D生成任務中均取得了優異的性能,其生成速度快(幾秒鐘內完成),生成的3D內容保真度高,幾何質量好,并且具有良好的泛化能力,與Stable Diffusion的泛化能力相當。
與基線方法相比,Prometheus在3D重建方面,尤其是在視圖重疊較少的困難場景中,表現出顯著的優勢。在文本到3D生成方面,Prometheus生成的3D場景包含豐富的細節,優于基于優化和前饋的基線方法。
4. 消融實驗
消融實驗驗證了RGB-D隱空間、大規模數據集、高噪聲水平以及混合采樣和CFG重標定策略對模型性能的貢獻。結果表明,這些設計選擇對于實現高質量和高效的文本到3D生成至關重要。
5. 結論
Prometheus是一個高效且高質量的文本到3D場景生成模型,其兩階段訓練框架和對RGB-D隱空間的利用,為文本到3D生成領域帶來了顯著的提升。該模型在速度、保真度、幾何質量和泛化能力方面均表現出色,為未來的3D內容生成研究提供了新的方向。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。
相關文章
