幾秒生成逼真3D場景！浙大&螞蟻等提出Prometheus，泛化媲美Stable Diffusion

Prometheus：一種3D感知的隱空間擴散模型。

原標題：幾秒生成逼真3D場景！浙大&螞蟻等提出Prometheus，泛化媲美Stable Diffusion
文章來源：智猩猩GenAI
內容字數：13193字

Prometheus: 高效的文本到3D場景生成模型

本文介紹了Prometheus，一個面向文本到3D生成的3D感知隱空間擴散模型，能夠高效生成對象級別和場景級別的3D內容。Prometheus采用兩階段訓練框架，并結合了多視角信息和RGB-D數據，在保真度、幾何質量和泛化能力方面取得了顯著進展。

1. 核心創新

Prometheus的主要創新在于其獨特的兩階段訓練框架和對RGB-D隱空間的利用。第一階段訓練一個3D高斯變分自編碼器(GS-VAE)，將多視角或單視角RGB-D圖像編碼為像素對齊的3D高斯表示。第二階段訓練一個多視角隱空間擴散模型(MV-LDM)，以文本提示和相機姿態為條件，在GS-VAE生成的隱空間中進行生成。這種方法有效地解耦了外觀和幾何信息，提高了生成效率和質量。

2. 兩階段訓練框架

第一階段 (GS-VAE): GS-VAE利用預訓練的圖像編碼器（例如Stable Diffusion編碼器）對多視角RGB-D圖像進行編碼，并通過多視圖Transformer融合多視角信息和相機姿態。解碼器則將融合后的隱空間表示解碼為像素對齊的3D高斯場景。損失函數包含重建損失（MSE和感知損失）和深度損失，以確保重建圖像和幾何信息的準確性。

第二階段 (MV-LDM): MV-LDM基于一個預訓練的文本到圖像擴散模型（例如Stable Diffusion的UNet），在GS-VAE生成的隱空間中進行訓練。它以文本提示和相機姿態為條件，通過迭代去噪過程生成多視角RGB-D隱空間編碼，最終解碼為3D高斯場景。為了平衡多視圖一致性和保真度，采用混合采樣引導和CFG重標定策略。

3. 數據集和實驗結果

Prometheus在9個多視角和單視角數據集的組合上進行訓練，包括物體中心、室內、室外和駕駛場景等。實驗結果表明，Prometheus在3D重建和文本到3D生成任務中均取得了優異的性能，其生成速度快（幾秒鐘內完成），生成的3D內容保真度高，幾何質量好，并且具有良好的泛化能力，與Stable Diffusion的泛化能力相當。

與基線方法相比，Prometheus在3D重建方面，尤其是在視圖重疊較少的困難場景中，表現出顯著的優勢。在文本到3D生成方面，Prometheus生成的3D場景包含豐富的細節，優于基于優化和前饋的基線方法。

4. 消融實驗

消融實驗驗證了RGB-D隱空間、大規模數據集、高噪聲水平以及混合采樣和CFG重標定策略對模型性能的貢獻。結果表明，這些設計選擇對于實現高質量和高效的文本到3D生成至關重要。

5. 結論

Prometheus是一個高效且高質量的文本到3D場景生成模型，其兩階段訓練框架和對RGB-D隱空間的利用，為文本到3D生成領域帶來了顯著的提升。該模型在速度、保真度、幾何質量和泛化能力方面均表現出色，為未來的3D內容生成研究提供了新的方向。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，專注于生成式人工智能。

閱讀原文

# AIGC動態 # 3D場景生成 # Prometheus模型 # Stable Diffusion對比 # 泛化能力 # 浙大螞蟻AI研究

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

幾秒生成逼真3D場景！浙大&螞蟻等提出Prometheus，泛化媲美Stable Diffusion

Prometheus：一種3D感知的隱空間擴散模型。

Prometheus: 高效的文本到3D場景生成模型

1. 核心創新

2. 兩階段訓練框架

3. 數據集和實驗結果

4. 消融實驗

5. 結論

聯系作者

長文本“新王”誕生！400萬字輸入，MiniMax首次開源即王炸

國產AI視頻爆火全球，歪果仁集體起立！快到震撼，驚爆價低至4分

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

幾秒生成逼真3D場景！浙大&螞蟻等提出Prometheus，泛化媲美Stable Diffusion

Prometheus：一種3D感知的隱空間擴散模型。

Prometheus: 高效的文本到3D場景生成模型

1. 核心創新

2. 兩階段訓練框架

3. 數據集和實驗結果

4. 消融實驗

5. 結論

聯系作者

長文本“新王”誕生！400萬字輸入，MiniMax首次開源即王炸

國產AI視頻爆火全球，歪果仁集體起立！快到震撼，驚爆價低至4分

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

幾秒生成逼真3D場景！浙大&螞蟻等提出Prometheus，泛化媲美Stable Diffusion

Prometheus：一種3D感知的隱空間擴散模型。

長文本“新王”誕生！400萬字輸入，MiniMax首次開源即王炸

國產AI視頻爆火全球，歪果仁集體起立！快到震撼，驚爆價低至4分