一張圖生成高質(zhì)量廣視野3D場景,還可控制攝像軌跡
多倫多大學(xué)、Snap、UCLA聯(lián)合推出
原標(biāo)題:一張圖生成高質(zhì)量廣視野3D場景,還可控制攝像軌跡
文章來源:量子位
內(nèi)容字?jǐn)?shù):4334字
Wonderland: 從單張圖像生成高質(zhì)量、廣范圍3D場景
多倫多大學(xué)、Snap和UCLA的研究團(tuán)隊(duì)推出了一款名為Wonderland的全新模型,實(shí)現(xiàn)了基于單張圖像生成高質(zhì)量、廣范圍3D場景的突破性進(jìn)展。該模型首次證明了三維重建模型可以有效地建立在擴(kuò)散模型的潛在空間上,從而高效地生成3D場景,堪稱單視圖3D場景生成領(lǐng)域的里程碑。
1. 技術(shù)突破:關(guān)鍵創(chuàng)新
傳統(tǒng)的3D重建技術(shù)依賴多視角數(shù)據(jù)或逐個場景優(yōu)化,在處理背景和不可見區(qū)域時容易失真。Wonderland則創(chuàng)新性地結(jié)合了視頻生成模型和大規(guī)模3D重建模型,克服了這些局限性:
向視頻擴(kuò)散模型中嵌入3D意識:通過相機(jī)位姿控制,Wonderland在視頻潛在空間中嵌入了場景的多視角信息,并保證了3D一致性。視頻生成模型精確地遵循相機(jī)軌跡,將單張圖像擴(kuò)展為包含豐富空間關(guān)系的多視角視頻。
雙分支相機(jī)控制機(jī)制:利用ControlNet和LoRA模塊,Wonderland精確控制視頻生成過程中的相機(jī)視角變化,顯著提升了多視角視頻的質(zhì)量、幾何一致性和靜態(tài)特征。
大規(guī)模latent-based 3D重建模型(LaLRM):Wonderland引入了LaLRM,直接利用視頻生成模型生成的潛在信息(latent)進(jìn)行3D場景重建(前饋重建)。漸進(jìn)式訓(xùn)練策略將潛在空間信息轉(zhuǎn)化為3D高斯點(diǎn)分布(3DGS),降低了內(nèi)存需求和重建時間成本,實(shí)現(xiàn)了圖像空間與三維空間的高效連接。
2. 效果展示:視頻和3D場景生成
Wonderland能夠基于單張圖像和相機(jī)軌跡精確控制視角,生成高質(zhì)量、幾何一致的視頻,并具有很強(qiáng)的泛化能力,適用于各種復(fù)雜的軌跡和風(fēng)格的輸入圖片。 它還能基于單張圖像,利用LaLRM生成高質(zhì)量、廣闊的3D場景,深度探索場景細(xì)節(jié)。
3. 卓越性能:高效且高質(zhì)量
Wonderland在視覺質(zhì)量、生成效率和適用性方面均表現(xiàn)卓越。實(shí)驗(yàn)結(jié)果顯示,其在視角控制、視頻質(zhì)量、3D重建幾何一致性、渲染圖像質(zhì)量和端到端生成速度等方面均超越現(xiàn)有方法。 它支持零樣本3D場景生成,能夠高效生成廣范圍的復(fù)雜場景,并具有高度的幾何一致性和泛化性。 使用單張A100顯卡,Wonderland只需約5分鐘即可生成完整的3D場景,效率遠(yuǎn)超現(xiàn)有技術(shù)。
4. 應(yīng)用場景:廣泛的應(yīng)用潛力
Wonderland為視頻和3D場景創(chuàng)作提供了嶄新的解決方案,在建筑設(shè)計(jì)、虛擬現(xiàn)實(shí)、影視特效和游戲開發(fā)等領(lǐng)域具有廣闊的應(yīng)用前景。其精確的視頻位姿控制和高清晰度的廣視角3D場景生成能力,能夠滿足復(fù)雜場景對高質(zhì)量內(nèi)容的需求。
5. 未來展望:持續(xù)改進(jìn)與完善
盡管Wonderland表現(xiàn)優(yōu)異,但研發(fā)團(tuán)隊(duì)仍將致力于提升其對動態(tài)場景的適配能力和對真實(shí)場景細(xì)節(jié)的還原度,以推動單視圖3D場景生成技術(shù)的進(jìn)步,并促進(jìn)視頻生成與3D技術(shù)在實(shí)際應(yīng)用中的廣泛普及。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破