突破自動駕駛新紀元:港中文、港科大與華為攜手推出MagicDriveDiT!
基于DiT架構(gòu)設(shè)計
原標題:突破自動駕駛視頻生成極限:港中文&港科大&華為聯(lián)手推出MagicDriveDiT
文章來源:量子位
內(nèi)容字數(shù):2317字
MagicDriveDiT:自動駕駛視頻生成的新標準
隨著自動駕駛技術(shù)的發(fā)展,生成高質(zhì)量且可控的街景視頻成為了開發(fā)自動駕駛應(yīng)用的關(guān)鍵。香港中文大學、香港科技大學與華為聯(lián)合推出了MagicDriveDiT,旨在重新定義自動駕駛視頻生成的標準。該系統(tǒng)支持昇騰Ascend NPU與NVIDIA GPU的訓(xùn)練和推理,利用DiT架構(gòu)和流匹配技術(shù),顯著提升了視頻生成的質(zhì)量與復(fù)雜場景的表現(xiàn)。
1. 精確場景控制
MagicDriveDiT的一個顯著特點是其精確的場景控制能力。該系統(tǒng)能夠生成多種復(fù)雜的行駛路況,例如無信號燈路口讓行、路邊起步變道和夜間行車等。此外,MagicDriveDiT支持對單個物體和復(fù)雜自車3D軌跡的精確控制,極大地滿足了自動駕駛應(yīng)用的需求。
2. 整體設(shè)計框架
MagicDriveDiT引入了跨視角一致性模塊,并在STDiT3基礎(chǔ)上提出了MVDiT模塊,以處理多視角視頻合成。該系統(tǒng)的設(shè)計還包括額外的控制分支和交叉注意力機制,以處理不同類型的控制信號。通過采用空間-時間條件編碼技術(shù),MagicDriveDiT實現(xiàn)了對時空潛變量的精確控制,使生成的視頻在視覺效果上更為逼真。
3. 漸進式訓(xùn)練策略
在訓(xùn)練方法上,MagicDriveDiT發(fā)現(xiàn)提升視頻分辨率對生成內(nèi)容質(zhì)量的影響顯著。因此,該系統(tǒng)采用了分辨率優(yōu)先的漸進式訓(xùn)練策略,加速模型訓(xùn)練收斂,并逐漸適配更高分辨率和更長的視頻。通過混合數(shù)據(jù)訓(xùn)練,MagicDriveDiT還具備了視頻長度外推的能力,能夠直接生成超越訓(xùn)練長度的視頻。
4. 實驗結(jié)果與未來展望
實驗結(jié)果顯示,MagicDriveDiT在生成真實街景視頻方面超越了現(xiàn)有方法,不僅在分辨率上取得了突破,在幀數(shù)上也實現(xiàn)了顯著提升。該系統(tǒng)的成功為自動駕駛技術(shù)的發(fā)展提供了強有力的支持,并為未來的研究奠定了基礎(chǔ)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破