18k個視頻、專為自動駕駛世界模型設計，DrivingDojo數據集來了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com世界模型被廣泛認為是實現通用人工智能的關鍵技術，其核心能力在于模擬真實世界的動態變化，并為決策提供精準的未來狀態預測。在自動駕駛領域，世界模型的應用尤為引人注目。然而，現有數據集在視頻多樣性和行為復雜性方面的不足，限制了世界模型潛力的全面發揮。為了解決這一瓶頸，中國科學院自動化研究所聯合美團無人車團隊推出了 DrivingDojo 數據集 —— 全球規模最大、專為自動駕駛世界模型研究設計的高質量視頻數據集。該數據集已被 NeurIPS 2024 的 Dataset Track 接收。網站：https://drivingdojo.github.io/論文：https://arxiv.org/pdf/2410.10738代碼：https://github.com/Robertwyq/Drivingdojo世界模型的核心在于交互、知識以及泛化世界模型刻畫了智能體在當前狀態下采取特定動作之后環境狀態所有可能的變化的分布。相比于單純關注于生成的圖像質量，我們認為其他道路參與者的行為（other agents behavior）以及整體的世界動態（general world dynamics）也同樣值得關注，即世界模型的交互、知識以及泛化能力。交互：世界模型應具備合理預測動態交互行為的能力。例如，在自動駕駛場景中，系統需要準確預測自車與行人或其他道路使用者之間的交互。除了理解靜態環境的變化，更重要的是能夠提供動態反饋，以支持系統在復雜場景中的應對。知識：世界模型應具備對環境中世界知識的深刻理解。例如，在自動駕駛場景中，系統需要能夠理解紅綠燈、升降桿等關鍵場景元素，以便作出恰當的駕駛決策。然而，僅通過像素級重建是否能準確建模這些知識仍然存在疑問，因此引入語言模型成為提升系統理解能力的關鍵手段。泛化：世界模型的預測能力應能夠擴展到新的未知場景，尤其是各種長尾場景，如稀有或極端環境下的駕駛表現。這種泛化能力是確保模型在真實世界中穩定運行的關鍵。DrivingDojo 數據集DrivingDojo 數據集相較于傳統的感知數據集，經過精心的挖掘與篩選，更加注重視頻多樣性的設計。從掉落的水桶、倒下的柵欄，到突然竄出的動物、夜晚的篝火、路上的羊群，包含了海量的長尾駕駛場景，為世界模型的研究提供了堅實的基礎。DrivingDojo 數據集包含大約 18k 個視頻，平均時長約為 20 秒。整個數據集可以劃分為三個子集，分別聚焦于駕駛行為、動態交互和世界知識的探索。駕駛行為：還原真實駕駛操作的多樣性我們精心構建了一個名為 DrivingDojo-Action 的子集，全面覆蓋駕駛操作的多樣化場景，呈現縱向與橫向行為的均衡分布：縱向操作：包含加速、減速、緊急剎車和起停駕駛，精準展現車輛在速度調控中的動態表現。橫向操作：涵蓋變道和車道保持，細致描繪車輛在空間選擇和路徑優化中的決策能力。動態交互：捕捉復雜交通中的行為模式除了在靜態道路網絡環境中進行導航外，建模多智能體之間的動態交互（如并入和讓行）也是世界模型的一個關鍵任務。我們精心挖掘了這一子集，比如并線、會車、被阻擋、超車、被超車。這一子集為世界模型提供了豐富的交互場景，助力其更好地應對復雜的交通環境。世界知識：賦能開放世界的智能理解不同于感知和預測模型通過將高維傳感器輸入壓縮為低維向量表示，世界模型在像素空間中運行，展現出更強的場景建模能力。這種增強的能力使得世界模型能夠有效捕捉開放世界駕駛場景中的復雜動態，例如動物突然橫穿馬路或貨物從車輛后備廂掉落等意外情況。通過在像素層面上的深度理解，世界模型為處理復雜交通情境提供了更可靠的基礎。推動智能交互與知識驅動的自動駕駛世界模型真實多樣的駕駛場景生成軌跡控制的視頻生成給定初始幀和軌跡，世界模型預測未來的情景預測不同的未來情景我們提出了指令跟隨的視頻預測任務，這也是世界模型的核心。以往的研究主要依賴于定性觀察，而在實際駕駛中，控制精度需要通過定量指標進行評估。由于生成視頻中缺少真實軌跡，我們采用了 COLMAP 重建方法對生成的軌跡進行重建，從而實現粗略的定量評測。利用 COLMAP 估計生成視頻的軌跡生成能力的泛化與以往在同一數據集上進行的生成測試相比，我們認為跨數據集的測試更為重要，這更好地體現了模型的泛化生成能力。在測試過程中，我們選擇了 OpenDV 的子集來進行評估。我們也期望模型具備良好的泛化能力：如行為的泛化，以及跨數據集的行為泛化。1. 異常行為生成 2. 在 nuScenes 數據集實現倒車交互行為的預測這一部分的核心在于探索世界模型是否能夠根據不同行為的輸入預測智能體之間的交互動態。以下示例中，當自車選擇停車時，模型預測右前方的車輛會搶占道路進行超車；而當自車選擇繼續前行時，模型則預測右前方的車輛會等待自車先通過。長時間高質量駕駛視頻生成?THE END轉載請聯系本公眾號獲得授權投稿或尋求報道：liyazhou@jiqizhixin.com

閱讀原文