EMMA是Waymo推出的一款先進的端到端自動駕駛多模態模型,基于Gemini模型開發。該系統能夠將原始相機傳感器數據直接轉換為駕駛相關的輸出,如路徑規劃、對象識別和道路元素圖。EMMA還將非傳感器輸入和輸出轉化為自然語言文本,借助預訓練的巨大語言模型積累的世界知識,在統一的語言空間中高效地處理多種駕駛任務。
EMMA是什么
EMMA是Waymo基于Gemini模型推出的端到端自動駕駛多模態模型,能夠將原始相機傳感器數據直接映射為特定于駕駛的輸出,包括規劃軌跡、感知周圍對象和構建道路圖元素。該模型通過將非傳感器輸入和輸出以自然語言文本的形式呈現,運用預訓練的大型語言模型的豐富知識,在一個統一的語言空間內協同處理多種駕駛任務。EMMA在nuScenes規劃和Waymo開放數據集上表現出色,但其也存在一些限制,例如對圖像幀處理數量的限制、缺乏精確的3D傳感器集成以及較高的計算成本。此模型旨在推動自動駕駛模型架構的進步,提升系統在復雜場景中的泛化與推理能力。
EMMA的主要功能
- 端到端規劃:
- 從原始相機傳感器數據直接生成自動駕駛車輛的未來軌跡。
- 將軌跡轉化為車輛控制動作,例如加速和轉向。
- 3D對象檢測:以攝像頭為主要傳感器,檢測和識別周圍的物體,包括車輛、行人和騎行者。
- 道路圖元素識別:識別和構建道路圖,包括車道線、交通標志等關鍵道路元素。
- 場景理解:理解整體場景的上下文,包括臨時道路阻塞及其他影響駕駛的因素。
- 多任務處理:在統一的語言空間中協同處理多種駕駛任務,通過任務特定的提示生成輸出。
- 鏈式思維推理:通過鏈式思維推理增強模型的決策能力和可解釋性,使其在預測未來軌跡時能夠闡明決策依據。
EMMA的技術原理
- 多模態大型語言模型(MLLMs):基于預訓練的MLLMs,如Gemini,該模型在廣泛的互聯網數據上訓練,具備豐富的“世界知識”。
- 自然語言表示:所有非傳感器輸入和輸出(如導航指令、車輛狀態、軌跡和3D位置)以自然語言文本形式表示。
- 視覺問題回答(VQA):將駕駛任務重新構想為VQA問題,利用Gemini的預訓練能力,保留廣泛的世界知識。
- 自回歸模型:采用自回歸Gemini模型處理交錯的文本和視覺輸入,生成文本輸出。
- 端到端訓練:通過端到端訓練,從傳感器數據直接生成駕駛動作,避免模塊間的符號化接口需求。
EMMA的項目地址
- arXiv技術論文:https://arxiv.org/pdf/2410.23262
EMMA的應用場景
- 城市與郊區駕駛:EMMA能夠處理復雜的城市交通環境及郊區道路條件,提供實時的駕駛決策和軌跡規劃。
- 交通擁堵與復雜交叉口:在交通擁堵或復雜交叉口場景中,EMMA能夠進行有效的路徑規劃和決策,確保安全高效的導航。
- 特殊天氣與光照條件:EMMA適應多種天氣與光照條件,如雨、霧或夜間駕駛,保持穩定的駕駛性能。
- 施工區域與臨時道路封閉:基于其場景理解能力,EMMA能夠識別施工區域和臨時道路封閉情況,并做出相應的駕駛調整。
- 緊急情況響應:在遇到緊急情況時,如突然出現的障礙物或動物,EMMA能夠迅速反應,采取避讓或減速的措施。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...