ICLR 2025 Spotlight | 讓城市「動」起來!DynamicCity突破4D大場景生成技術(shù)邊界
DynamicCity實現(xiàn)了高效、可控且高質(zhì)量的4D場景生成。
原標(biāo)題:ICLR 2025 Spotlight | 讓城市「動」起來!DynamicCity突破4D大場景生成技術(shù)邊界
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9105字
DynamicCity: 高效高質(zhì)量的4D動態(tài)場景生成模型
機(jī)器之心AIxiv專欄報道了上海人工智能實驗室、梅隆大學(xué)、新加坡國立大學(xué)和新加坡南洋理工大學(xué)團(tuán)隊提出的DynamicCity,一個面向4D場景生成的突破性框架。該工作已被ICLR 2025接收為Spotlight論文,項目主頁和代碼已公開。
1. 現(xiàn)有技術(shù)瓶頸與DynamicCity的突破
現(xiàn)有的3D大型場景生成技術(shù),例如SemCity、PDD和XCube,雖然能夠生成復(fù)雜且稀疏的三維環(huán)境,但都局限于靜態(tài)單幀的生成,無法捕捉真實世界中交通流、行人等動態(tài)要素的時空演化規(guī)律。DynamicCity通過4D到2D的特征降維,首次實現(xiàn)了高質(zhì)量、高效的4D場景建模,在生成質(zhì)量、訓(xùn)練速度和內(nèi)存消耗上取得了顯著進(jìn)展,成功突破了靜態(tài)場景生成的限制。
2. DynamicCity的核心思想與技術(shù)
DynamicCity的核心思想是通過在潛空間顯式建模場景的空間布局與動態(tài)變化,并借助擴(kuò)散模型直接生成高質(zhì)量的動態(tài)場景。具體方法分為兩步:
基于HexPlane表征的VAE:利用變分自編碼器(VAE)將復(fù)雜的4D場景壓縮為緊湊的2D HexPlane特征表示。 這其中,投影模塊(Projection Module)將4D點云序列壓縮為六個2D特征平面,Expansion & Squeeze Strategy (ESS)則在提升重建精度的同時降低內(nèi)存消耗。
在重組HexPlane上訓(xùn)練的擴(kuò)散模型:利用Padded Rollout Operation (PRO)將HexPlane特征重組為適配Diffusion Transformer (DiT)框架的特征圖,最大程度保留結(jié)構(gòu)化信息,幫助DiT更好地學(xué)習(xí)潛空間并生成場景的空間結(jié)構(gòu)與動態(tài)演化。
3. DynamicCity的主要貢獻(xiàn)
DynamicCity的主要貢獻(xiàn)包括:
時空特征壓縮:高效的HexPlane投影模塊和ESS策略,顯著提升了重建精度并降低內(nèi)存消耗。
特征重組:PRO操作有效地保留了HexPlane的結(jié)構(gòu)化信息,提高了DiT的學(xué)習(xí)效率。
可控生成:支持軌跡引導(dǎo)生成、指令驅(qū)動生成、4D場景修改、布局條件生成等多種可控生成方式。
4. 可控生成與應(yīng)用
DynamicCity通過Classifier-Free Guidance (CFG)和AdaLN-Zero技術(shù),支持HexPlane續(xù)生成、布局控制生成、車輛軌跡控制、自車控制以及4D場景修改等多種應(yīng)用,為自動駕駛等領(lǐng)域提供了強(qiáng)大的工具。
5. 結(jié)論
DynamicCity通過巧妙的特征降維和擴(kuò)散模型的結(jié)合,實現(xiàn)了高效、可控且高質(zhì)量的4D動態(tài)場景生成,為未來虛擬世界構(gòu)建和智能系統(tǒng)訓(xùn)練提供了新的可能性。其創(chuàng)新性體現(xiàn)在高效的4D場景表示、強(qiáng)大的可控性以及在多個自動駕駛相關(guān)任務(wù)中的應(yīng)用潛力。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺