全新的模型Wonderland。
原標題:單張圖像探索3D奇境:Wonderland讓高質量3D場景生成更高效
文章來源:機器之心
內容字數:4375字
Wonderland:從單張圖像生成高質量3D場景的突破性進展
機器之心AIxiv專欄報道了多倫多大學、Snap Inc.和UCLA研究團隊的最新成果——Wonderland模型。該模型能夠從單張圖像生成高質量、廣范圍的3D場景,在單視圖3D場景生成領域取得了突破性進展。
1. 技術突破:高效高質量的大規模3D場景生成
傳統的3D重建技術依賴多視角數據或逐個場景優化,處理背景和不可見區域時易失真。Wonderland創新性地結合視頻生成模型和大規模3D重建模型(LaLRM),解決了這些問題。它通過向視頻擴散模型嵌入相機位姿控制,在視頻latent空間中嵌入場景的多視角信息,保證3D一致性。雙分支相機控制機制(ControlNet和LoRA模塊)精確控制相機視角變化,提升了多視角視頻的質量、幾何一致性和靜態特征。LaLRM利用視頻生成模型生成的latent直接重構3D場景,并采用高效的逐步訓練策略,將信息轉化為3D高斯點分布(3DGS),降低了內存需求和重建時間成本。
2. 效果展示:精確的視角控制和高質量的3D場景生成
Wonderland實現了基于單張圖像和相機條件的精確視角控制視頻生成。Camera-guided視頻生成模型能夠精確遵循軌跡條件,生成3D幾何一致的高質量視頻,并具有很強的泛化性。基于單張圖像和LaLRM,Wonderland能夠生成高質量、廣闊的3D場景。無論是單張圖像輸入,還是結合多條相機軌跡,Wonderland都能深度探索并生成高質量的3D場景,其渲染結果展示了卓越的視覺效果。
3. 卓越性能:超越現有方法的多個維度
Wonderland在視覺質量和生成效率等多個維度上表現卓越。實驗結果顯示,其在視角控制、視頻質量、3D重建幾何一致性、渲染圖像質量和端到端生成速度上均優于現有方法。它實現了Zero-shot 3D場景生成,能夠高效生成廣范圍的復雜場景,并具有高度的幾何一致性和泛化性。效率方面,Wonderland在單張A100上僅需約5分鐘即可生成完整的3D場景,顯著快于現有方法。
4. 應用場景:視頻和3D場景內容創作的新工具
Wonderland為視頻和3D場景創作提供了一種嶄新的解決方案,在建筑設計、虛擬現實、影視特效和游戲開發等領域具有廣闊的應用潛力。其精確的視頻位姿控制和廣視角、高清晰度的3D場景生成能力,能夠滿足復雜場景中對高質量內容的需求。
5. 未來展望:持續改進和完善
研究團隊將繼續努力優化模型,例如提升對動態場景的適配能力和對真實場景細節的還原度,推動單視圖3D場景生成技術的進步,并促進視頻生成與3D技術在實際應用中的廣泛普及。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺