單張圖像探索3D奇境:Wonderland讓高質(zhì)量3D場景生成更高效
全新的模型Wonderland。
原標題:單張圖像探索3D奇境:Wonderland讓高質(zhì)量3D場景生成更高效
文章來源:機器之心
內(nèi)容字數(shù):4375字
Wonderland:從單張圖像生成高質(zhì)量3D場景的突破性進展
機器之心AIxiv專欄報道了多倫多大學、Snap Inc.和UCLA研究團隊的最新成果——Wonderland模型。該模型能夠從單張圖像生成高質(zhì)量、廣范圍的3D場景,在單視圖3D場景生成領域取得了突破性進展。
1. 技術突破:高效高質(zhì)量的大規(guī)模3D場景生成
傳統(tǒng)的3D重建技術依賴多視角數(shù)據(jù)或逐個場景優(yōu)化,處理背景和不可見區(qū)域時易失真。Wonderland創(chuàng)新性地結(jié)合視頻生成模型和大規(guī)模3D重建模型(LaLRM),解決了這些問題。它通過向視頻擴散模型嵌入相機位姿控制,在視頻latent空間中嵌入場景的多視角信息,保證3D一致性。雙分支相機控制機制(ControlNet和LoRA模塊)精確控制相機視角變化,提升了多視角視頻的質(zhì)量、幾何一致性和靜態(tài)特征。LaLRM利用視頻生成模型生成的latent直接重構3D場景,并采用高效的逐步訓練策略,將信息轉(zhuǎn)化為3D高斯點分布(3DGS),降低了內(nèi)存需求和重建時間成本。
2. 效果展示:精確的視角控制和高質(zhì)量的3D場景生成
Wonderland實現(xiàn)了基于單張圖像和相機條件的精確視角控制視頻生成。Camera-guided視頻生成模型能夠精確遵循軌跡條件,生成3D幾何一致的高質(zhì)量視頻,并具有很強的泛化性。基于單張圖像和LaLRM,Wonderland能夠生成高質(zhì)量、廣闊的3D場景。無論是單張圖像輸入,還是結(jié)合多條相機軌跡,Wonderland都能深度探索并生成高質(zhì)量的3D場景,其渲染結(jié)果展示了卓越的視覺效果。
3. 卓越性能:超越現(xiàn)有方法的多個維度
Wonderland在視覺質(zhì)量和生成效率等多個維度上表現(xiàn)卓越。實驗結(jié)果顯示,其在視角控制、視頻質(zhì)量、3D重建幾何一致性、渲染圖像質(zhì)量和端到端生成速度上均優(yōu)于現(xiàn)有方法。它實現(xiàn)了Zero-shot 3D場景生成,能夠高效生成廣范圍的復雜場景,并具有高度的幾何一致性和泛化性。效率方面,Wonderland在單張A100上僅需約5分鐘即可生成完整的3D場景,顯著快于現(xiàn)有方法。
4. 應用場景:視頻和3D場景內(nèi)容創(chuàng)作的新工具
Wonderland為視頻和3D場景創(chuàng)作提供了一種嶄新的解決方案,在建筑設計、虛擬現(xiàn)實、影視特效和游戲開發(fā)等領域具有廣闊的應用潛力。其精確的視頻位姿控制和廣視角、高清晰度的3D場景生成能力,能夠滿足復雜場景中對高質(zhì)量內(nèi)容的需求。
5. 未來展望:持續(xù)改進和完善
研究團隊將繼續(xù)努力優(yōu)化模型,例如提升對動態(tài)場景的適配能力和對真實場景細節(jié)的還原度,推動單視圖3D場景生成技術的進步,并促進視頻生成與3D技術在實際應用中的廣泛普及。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺