多倫多大學、Snap、UCLA聯合推出

原標題:一張圖生成高質量廣視野3D場景,還可控制攝像軌跡
文章來源:量子位
內容字數:4334字
Wonderland: 從單張圖像生成高質量、廣范圍3D場景
多倫多大學、Snap和UCLA的研究團隊推出了一款名為Wonderland的全新模型,實現了基于單張圖像生成高質量、廣范圍3D場景的突破性進展。該模型首次證明了三維重建模型可以有效地建立在擴散模型的潛在空間上,從而高效地生成3D場景,堪稱單視圖3D場景生成領域的里程碑。
1. 技術突破:關鍵創新
傳統的3D重建技術依賴多視角數據或逐個場景優化,在處理背景和不可見區域時容易失真。Wonderland則創新性地結合了視頻生成模型和大規模3D重建模型,克服了這些局限性:
向視頻擴散模型中嵌入3D意識:通過相機位姿控制,Wonderland在視頻潛在空間中嵌入了場景的多視角信息,并保證了3D一致性。視頻生成模型精確地遵循相機軌跡,將單張圖像擴展為包含豐富空間關系的多視角視頻。
雙分支相機控制機制:利用ControlNet和LoRA模塊,Wonderland精確控制視頻生成過程中的相機視角變化,顯著提升了多視角視頻的質量、幾何一致性和靜態特征。
大規模latent-based 3D重建模型(LaLRM):Wonderland引入了LaLRM,直接利用視頻生成模型生成的潛在信息(latent)進行3D場景重建(前饋重建)。漸進式訓練策略將潛在空間信息轉化為3D高斯點分布(3DGS),降低了內存需求和重建時間成本,實現了圖像空間與三維空間的高效連接。
2. 效果展示:視頻和3D場景生成
Wonderland能夠基于單張圖像和相機軌跡精確控制視角,生成高質量、幾何一致的視頻,并具有很強的泛化能力,適用于各種復雜的軌跡和風格的輸入圖片。 它還能基于單張圖像,利用LaLRM生成高質量、廣闊的3D場景,深度探索場景細節。
3. 卓越性能:高效且高質量
Wonderland在視覺質量、生成效率和適用性方面均表現卓越。實驗結果顯示,其在視角控制、視頻質量、3D重建幾何一致性、渲染圖像質量和端到端生成速度等方面均超越現有方法。 它支持零樣本3D場景生成,能夠高效生成廣范圍的復雜場景,并具有高度的幾何一致性和泛化性。 使用單張A100顯卡,Wonderland只需約5分鐘即可生成完整的3D場景,效率遠超現有技術。
4. 應用場景:廣泛的應用潛力
Wonderland為視頻和3D場景創作提供了嶄新的解決方案,在建筑設計、虛擬現實、影視特效和游戲開發等領域具有廣闊的應用前景。其精確的視頻位姿控制和高清晰度的廣視角3D場景生成能力,能夠滿足復雜場景對高質量內容的需求。
5. 未來展望:持續改進與完善
盡管Wonderland表現優異,但研發團隊仍將致力于提升其對動態場景的適配能力和對真實場景細節的還原度,以推動單視圖3D場景生成技術的進步,并促進視頻生成與3D技術在實際應用中的廣泛普及。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

粵公網安備 44011502001135號