清華叉院、理想提出DriveVLM，視覺大語言模型提升自動駕駛能力

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：清華叉院、理想提出DriveVLM，視覺大語言模型提升自動駕駛能力
關鍵字：場景,模型,數據,關鍵,作者
文章來源：機器之心
內容字數：7509字

內容摘要：

機器之心報道
編輯：澤南在自動駕駛領域，研究人員也在朝著 GPT/Sora 等大模型方向進行探索。
與生成式 AI 相比，自動駕駛也是近期 AI 最活躍的研究和開發領域之一。要想構建完全的自動駕駛系統，人們面臨的主要挑戰是 AI 的場景理解，這會涉及到復雜、不可預測的場景，例如惡劣天氣、復雜的道路布局和不可預見的人類行為。
現有的自動駕駛系統通常包括 3D 感知、預測和規劃組成部分。具體來說，3D 感知僅限于檢測和跟蹤熟悉的物體，忽略了罕見物體及其屬性，預測和規劃則關注物體的軌跡動作，通常會忽略物體和車輛之間的決策級交互。
自動駕駛需要從數據驅動迭代到知識驅動，通過訓練具備邏輯推理能力的大模型才能真正解決長尾問題，只有這樣才能邁向開放世界的 L4 級能力。隨著 GPT4、Sora 等大模型通過涌現、規模效應展現出強大 few-shot/zero-shot 能力，人們正在思考一條新路。
最近清華大學交叉信息研究院、理想汽車提交的新論文中，作者提出了 DriveVLM，受到最近生成式 AI 領域興起的視覺語言模型（VLM）啟發，DriveVLM 在視覺理解和推理方面表現出了非凡的

原文鏈接：清華叉院、理想提出DriveVLM，視覺大語言模型提升自動駕駛能力