Wonderland

Wonderland – 多倫多大學、Snap和UCLA聯合推出的單視圖3D場景生成技術

Wonderland是什么

Wonderland是一項由多倫多大學、Snap和UCLA的研究團隊共同開發的技術，能夠從單張圖片中生成高質量、廣泛的3D場景，并允許用戶控制攝像軌跡。這一技術突破性地證明了三維重建模型可以有效地基于擴散模型的潛在空間進行構建，從而實現高效的三維場景生成。通過結合視頻擴散模型和大規模3D重建模型，Wonderland成功解決了傳統3D重建技術中的視角失真問題，提供了精準的視角控制和多視角視頻生成的能力。

Wonderland

Wonderland的主要功能

視頻生成：Wonderland能夠根據單張圖像及相機條件，精準生成視角控制的視頻，制作出三維幾何一致的高質量視頻，具有較強的泛化能力，適合多種復雜軌跡和不同風格的輸入圖像。
3D場景生成：憑借單張圖像，Wonderland基于LaLRM技術可以生成高質量且廣泛的3D場景，深入探索并創建出豐富的三維環境。
零樣本3D場景生成：在單圖像輸入的基礎上，Wonderland能夠高效進行3D場景的前向重建，其在多個基準數據集上的表現超越了現有大多數方法。
廣泛的場景生成能力：Wonderland具備高效生成復雜場景的能力，生成的3D場景保持高度的幾何一致性，并能處理超出訓練域的場景。

Wonderland的技術原理

視頻擴散模型與3D重建模型的融合：Wonderland首次展示了三維重建模型能夠有效地在擴散模型的潛在空間中進行構建，進而實現高效的三維場景生成。視頻擴散模型能夠精確地按照指定的相機軌跡創建視頻，生成含有多視角信息的潛在特征，同時維護三維一致性。
雙分支相機控制機制：通過使用ControlNet和LoRA模塊，Wonderland在視頻生成過程中實現了對多樣化相機視角變化的精準控制，大幅提升了生成視頻的質量、幾何一致性和靜態特征。
大規模潛在基礎3D重建模型（LaLRM）：Wonderland創新性地引入了LaLRM，通過視頻生成模型生成的潛在特征直接進行3D場景重構，采用高效的逐步訓練策略，將視頻潛在空間中的信息轉換為三維高斯點分布（3D Gaussian Splatting，3DGS），顯著降低了內存需求和重建時間。
從單張圖片到三維世界的關鍵創新：傳統的3D重建技術通常依賴多視角數據或逐一場景優化，且對背景和不可見區域處理時容易出現失真。Wonderland通過結合視頻生成和大規模3D重建模型，實現了高效且高質量的大規模3D場景生成。
在視頻擴散模型中嵌入3D意識：通過在視頻擴散模型中引入相機位姿控制，Wonderland在視頻潛在空間中嵌入了場景的多視角信息，并確保了三維一致性。