DynamicCity實現了高效、可控且高質量的4D場景生成。

原標題:ICLR 2025 Spotlight | 讓城市「動」起來!DynamicCity突破4D大場景生成技術邊界
文章來源:機器之心
內容字數:9105字
DynamicCity: 高效高質量的4D動態場景生成模型
機器之心AIxiv專欄報道了上海人工智能實驗室、梅隆大學、新加坡國立大學和新加坡南洋理工大學團隊提出的DynamicCity,一個面向4D場景生成的突破性框架。該工作已被ICLR 2025接收為Spotlight論文,項目主頁和代碼已公開。
1. 現有技術瓶頸與DynamicCity的突破
現有的3D大型場景生成技術,例如SemCity、PDD和XCube,雖然能夠生成復雜且稀疏的三維環境,但都局限于靜態單幀的生成,無法捕捉真實世界中交通流、行人等動態要素的時空演化規律。DynamicCity通過4D到2D的特征降維,首次實現了高質量、高效的4D場景建模,在生成質量、訓練速度和內存消耗上取得了顯著進展,成功突破了靜態場景生成的限制。
2. DynamicCity的核心思想與技術
DynamicCity的核心思想是通過在潛空間顯式建模場景的空間布局與動態變化,并借助擴散模型直接生成高質量的動態場景。具體方法分為兩步:
基于HexPlane表征的VAE:利用變分自編碼器(VAE)將復雜的4D場景壓縮為緊湊的2D HexPlane特征表示。 這其中,投影模塊(Projection Module)將4D點云序列壓縮為六個2D特征平面,Expansion & Squeeze Strategy (ESS)則在提升重建精度的同時降低內存消耗。
在重組HexPlane上訓練的擴散模型:利用Padded Rollout Operation (PRO)將HexPlane特征重組為適配Diffusion Transformer (DiT)框架的特征圖,最大程度保留結構化信息,幫助DiT更好地學習潛空間并生成場景的空間結構與動態演化。
3. DynamicCity的主要貢獻
DynamicCity的主要貢獻包括:
時空特征壓縮:高效的HexPlane投影模塊和ESS策略,顯著提升了重建精度并降低內存消耗。
特征重組:PRO操作有效地保留了HexPlane的結構化信息,提高了DiT的學習效率。
可控生成:支持軌跡引導生成、指令驅動生成、4D場景修改、布局條件生成等多種可控生成方式。
4. 可控生成與應用
DynamicCity通過Classifier-Free Guidance (CFG)和AdaLN-Zero技術,支持HexPlane續生成、布局控制生成、車輛軌跡控制、自車控制以及4D場景修改等多種應用,為自動駕駛等領域提供了強大的工具。
5. 結論
DynamicCity通過巧妙的特征降維和擴散模型的結合,實現了高效、可控且高質量的4D動態場景生成,為未來虛擬世界構建和智能系統訓練提供了新的可能性。其創新性體現在高效的4D場景表示、強大的可控性以及在多個自動駕駛相關任務中的應用潛力。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

粵公網安備 44011502001135號