顛覆未來出行：港中文、港科大與華為聯手揭曉MagicDriveDiT的驚艷之旅

基于DiT架構設計

原標題：突破自動駕駛視頻生成極限：港中文&港科大&華為聯手推出MagicDriveDiT
文章來源：量子位
內容字數：2317字

隨著自動駕駛技術的發展，高質量的街景視頻生成成為了滿足數據需求的重要環節。香港中文大學、香港科技大學與華為聯合推出的MagicDriveDiT，正是為了解決這一長期挑戰而設計的，旨在重新定義自動駕駛視頻生成的標準。

MagicDriveDiT基于DiT架構，通過流匹配技術和漸進式訓練策略，提升了系統的擴展能力，能夠有效生成復雜的場景和長時間的視頻。該框架支持昇騰Ascend NPU和NVIDIA GPU進行訓練和推理，為不同硬件平臺提供了靈活性。

MagicDriveDiT的另一大亮點是其精確的場景控制能力。它能夠生成多種復雜的行駛路況，例如無信號燈路口的讓行、路邊起步變道和夜間行車等。同時，MagicDriveDiT支持單個物體的精確控制及復雜的自車3D軌跡控制，極大豐富了生成內容的多樣性。

在架構設計上，MagicDriveDiT引入了跨視角一致性模塊，并提出了MVDiT模塊用于處理多視角視頻合成。此外，通過空間-時間條件編碼技術，該方法實現了對時空潛變量的精確控制，克服了傳統2DVAE編碼在3DVAE時空控制中的局限性。

MagicDriveDiT采用分辨率優先的漸進式訓練策略，顯著提高了視頻生成質量和訓練效率。這種策略不僅加速了模型的收斂，還使得模型能夠適應更高分辨率和更長時間的視頻生成。此外，通過混合數據訓練，MagicDriveDiT具備了視頻長度外推的能力，可以生成超出訓練長度的視頻。

實驗結果表明，MagicDriveDiT在生成真實街景視頻方面的表現優于現有方法，尤其在分辨率和幀數上取得了顯著提升，達到了前所未有的視頻生成效果。這一成果為自動駕駛技術的發展提供了強大的數據支持，未來有望推動更多應用的落地。

更多信息請參考論文和項目地址：論文鏈接，項目地址。

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...