TripoSG

TripoSG – VAST AI 推出的高保真 3D 形狀合成技術

TripoSG

TripoSG 是由 VAST-AI-Research 團隊開發的一種高保真 3D 形狀合成技術，基于大規模修正流（Rectified Flow，RF）模型。通過創新的修正流變換器架構、混合監督訓練策略以及豐富的高質量數據集，TripoSG 能夠將單張輸入圖像轉化為高精度的 3D 網格模型。它在多項基準測試中展現出卓越性能，生成的 3D 模型不僅細節豐富，而且與輸入條件高度一致。

TripoSG是什么

TripoSG 是一項由 VAST-AI-Research 團隊推出的高保真 3D 形狀生成技術，依托于大規模修正流（Rectified Flow，RF）模型。該技術通過獨特的修正流變換器架構、混合監督訓練方法和高質量數據集，實現從單張輸入圖像生成精細的 3D 網格模型。TripoSG 在多個基準測試中表現優異，生成的 3D 模型細節豐富且與輸入圖像高度對齊。

TripoSG的主要功能

自動生成3D內容：TripoSG 能夠直接從單張輸入圖像生成高細節的 3D 網格模型，極大地簡化了高質量 3D 內容的生成過程。
高分辨率三維重建：TripoSG 的變分自編碼器（VAE）架構能夠處理更高分辨率的輸入，適合高分辨率三維重建任務。
高保真生成：生成的網格展現出清晰的幾何特征、細膩的表面細節和復雜的結構。
語義一致性：生成的形狀能夠準確反映輸入圖像的語義和外觀。
強泛化能力：支持多種輸入風格，包括真實圖像、卡通風格和草圖。
穩健的性能：在面對復雜拓撲結構的挑戰性輸入時，依然能夠生成連貫的形狀。

TripoSG的技術原理

大規模修正流變換器：TripoSG 首次在 3D 形狀生成中引入基于校正流的變換器架構，經過大量高質量數據的訓練，實現高保真 3D 形狀的生成。與傳統擴散模型相比，修正流提供了從噪聲到數據之間更為簡潔的線性路徑建模，確保了訓練的穩定性和效率。
混合監督訓練策略：TripoSG 結合了符號距離函數（SDF）、法線和 Eikonal 損失的混合監督訓練方法，顯著提高了 3D 變分自編碼器（VAE）的重建性能，使其能夠學習到更準確、細節豐富的幾何表示。
高質量數據處理流程：TripoSG 的數據構建與治理流程涵蓋質量評分、數據篩選、修復與增強、SDF 數據生成等環節，構建了包含 200 萬高質量“圖像-SDF”訓練樣本對的數據集。消融實驗表明，使用此高質量數據集訓練的模型性能明顯優于那些在未經篩選的大規模原始數據集上訓練的模型。
高效的 VAE 架構：TripoSG 采用高效的 VAE 架構，利用 SDF 進行幾何表示，相較于傳統的體素占用柵格，提供更高的精度。基于變換器的 VAE 架構在分辨率上表現出強大的泛化能力，無需重新訓練即可處理更高分辨率的輸入。
MoE Transformer 模型：TripoSG 是首個在 3D 領域應用 MoE Transformer 模型的項目，集成了 MoE 層，能夠在幾乎不增加推理計算成本的情況下顯著提升模型的參數容量。