DynamicCity – 上海 AI Lab 推出的4D動態場景生成框架
DynamicCity 是由上海AI Lab開發的一款先進的4D動態場景生成框架,專注于構建具有豐富語義信息的動態LiDAR場景。該框架能夠處理廣闊的空間范圍(80×80×6.4 m3)及長達128幀的序列數據。DynamicCity利用變分自編碼器(VAE)模型將4D場景壓縮為精簡的HexPlane表示,再通過基于擴散模型的生成器(DiT)重建這些動態場景。該技術突顯了在高質量動態場景生成方面的卓越能力,并為自動駕駛及機器人技術提供了強有力的支持。
DynamicCity是什么
DynamicCity 是一款由上海AI Lab推出的4D動態場景生成框架,專注于創建具有語義信息的動態LiDAR場景。它能夠處理大規模空間(80×80×6.4 m3)和長序列(最多128幀)的數據。該框架通過VAE模型將4D場景編碼為緊湊的HexPlane表示,并利用基于擴散模型(DiT)的生成器重建動態場景。DynamicCity廣泛應用于軌跡引導、指令驅動生成和動態場景修復等領域,其在CarlaSC和Occ3D-Waymo數據集上表現優異,明顯優于現有技術。
DynamicCity的主要功能
- 高質量4D場景生成:能夠生成大規模且高質量的動態LiDAR場景,真實再現環境中的動態變化,支持長達128幀的復雜序列生成。
- 多樣化應用場景:
- 軌跡引導生成:通過輸入特定軌跡,控制場景中對象的移動。
- 指令驅動生成:根據指令(如“左轉”、“右轉”、“前進”)來控制自車或場景的。
- 動態場景修復:修復缺失或損壞的場景,生成完整的動態環境。
- 布局條件生成:根據鳥瞰圖布局來控制車輛及其他對象的配置。
DynamicCity的技術原理
- 變分自編碼器(VAE)模型:
- 編碼階段:將4D LiDAR場景壓縮為緊湊的HexPlane表示,通過3D卷積神經網絡提取特征,利用Projection Module將4D特征壓縮為六個2D特征圖,從而提升HexPlane的擬合質量(最高提升12.56%的mIoU)。
- 解碼階段:采用Expansion & Squeeze Strategy (ESS)并行解碼HexPlane,以重建3D特征體積。此方法相比逐點查詢,提升了擬合質量(最高提升7.05%的mIoU),加速了訓練過程(最高提升2.06倍),并顯著減少內存使用(最高減少70.84%)。
- 擴散模型(DiT):
- HexPlane生成:在編碼后的HexPlane基礎上,DiT模型用于生成新的HexPlane,從而實現4D LiDAR場景的生成。為使HexPlane適用于DiT生成,提出了Padded Rollout Operation (PRO),將六個特征平面重組為一個方形的2D特征圖,高效建模特征序列中的空間和時間關系。
- 條件生成:DiT支持條件注入(如軌跡、指令、布局等),實現多樣化的4D場景生成應用。通過Classifier-Free Guidance (CFG),模型在訓練過程中同時學習條件生成與無條件生成,從而在生成過程中實現更精細的控制。
DynamicCity的項目地址
- 項目官網:https://dynamic-city.github.io/
- GitHub倉庫:https://github.com/3DTopia/DynamicCity
- arXiv技術論文:https://arxiv.org/pdf/2410.18084
DynamicCity的應用場景
- 自動駕駛仿真:生成復雜的動態場景,以支持自動駕駛算法的開發和測試,提升系統的安全性。
- 虛擬現實:創建逼真的虛擬環境,支持虛擬現實和增強現實應用,例如虛擬駕駛和城市規劃展示。
- 機器人導航:模擬三維動態環境,幫助機器人進行路徑規劃和障礙物檢測,提高適應性。
- 交通流量分析:對交通流量進行建模和分析,預測擁堵情況,優化交通信號和道路布局。
- 智能城市規劃:生成城市級動態場景,輔助評估城市布局和公共設施的規劃。
常見問題
- DynamicCity支持哪些數據格式?:DynamicCity支持多種LiDAR數據格式,以適應不同的應用需求。
- 如何獲取DynamicCity的技術支持?:可以通過官方網站或GitHub倉庫提交問題,團隊會盡快回應。
- DynamicCity的系統要求是什么?:具體的系統要求可以在項目官網找到,包括所需的硬件和軟件環境。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...