顛覆未來出行:港中文、港科大與華為聯(lián)手揭曉MagicDriveDiT的驚艷之旅
基于DiT架構(gòu)設(shè)計
原標(biāo)題:突破自動駕駛視頻生成極限:港中文&港科大&華為聯(lián)手推出MagicDriveDiT
文章來源:量子位
內(nèi)容字?jǐn)?shù):2317字
MagicDriveDiT:自動駕駛視頻生成的新標(biāo)準(zhǔn)
隨著自動駕駛技術(shù)的發(fā)展,高質(zhì)量的街景視頻生成成為了滿足數(shù)據(jù)需求的重要環(huán)節(jié)。香港中文大學(xué)、香港科技大學(xué)與華為聯(lián)合推出的MagicDriveDiT,正是為了解決這一長期挑戰(zhàn)而設(shè)計的,旨在重新定義自動駕駛視頻生成的標(biāo)準(zhǔn)。
1. MagicDriveDiT的技術(shù)基礎(chǔ)
MagicDriveDiT基于DiT架構(gòu),通過流匹配技術(shù)和漸進(jìn)式訓(xùn)練策略,提升了系統(tǒng)的擴(kuò)展能力,能夠有效生成復(fù)雜的場景和長時間的視頻。該框架支持昇騰Ascend NPU和NVIDIA GPU進(jìn)行訓(xùn)練和推理,為不同硬件平臺提供了靈活性。
2. 精確的場景控制
MagicDriveDiT的另一大亮點是其精確的場景控制能力。它能夠生成多種復(fù)雜的行駛路況,例如無信號燈路口的讓行、路邊起步變道和夜間行車等。同時,MagicDriveDiT支持單個物體的精確控制及復(fù)雜的自車3D軌跡控制,極大豐富了生成內(nèi)容的多樣性。
3. 創(chuàng)新的架構(gòu)設(shè)計
在架構(gòu)設(shè)計上,MagicDriveDiT引入了跨視角一致性模塊,并提出了MVDiT模塊用于處理多視角視頻合成。此外,通過空間-時間條件編碼技術(shù),該方法實現(xiàn)了對時空潛變量的精確控制,克服了傳統(tǒng)2DVAE編碼在3DVAE時空控制中的局限性。
4. 漸進(jìn)式訓(xùn)練策略
MagicDriveDiT采用分辨率優(yōu)先的漸進(jìn)式訓(xùn)練策略,顯著提高了視頻生成質(zhì)量和訓(xùn)練效率。這種策略不僅加速了模型的收斂,還使得模型能夠適應(yīng)更高分辨率和更長時間的視頻生成。此外,通過混合數(shù)據(jù)訓(xùn)練,MagicDriveDiT具備了視頻長度外推的能力,可以生成超出訓(xùn)練長度的視頻。
5. 實驗結(jié)果與未來展望
實驗結(jié)果表明,MagicDriveDiT在生成真實街景視頻方面的表現(xiàn)優(yōu)于現(xiàn)有方法,尤其在分辨率和幀數(shù)上取得了顯著提升,達(dá)到了前所未有的視頻生成效果。這一成果為自動駕駛技術(shù)的發(fā)展提供了強大的數(shù)據(jù)支持,未來有望推動更多應(yīng)用的落地。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
