AIGC動態歡迎閱讀
原標題:清華叉院、理想提出DriveVLM,視覺大語言模型提升自動駕駛能力
關鍵字:場景,模型,數據,關鍵,作者
文章來源:機器之心
內容字數:7509字
內容摘要:
機器之心報道
編輯:澤南在自動駕駛領域,研究人員也在朝著 GPT/Sora 等大模型方向進行探索。
與生成式 AI 相比,自動駕駛也是近期 AI 最活躍的研究和開發領域之一。要想構建完全的自動駕駛系統,人們面臨的主要挑戰是 AI 的場景理解,這會涉及到復雜、不可預測的場景,例如惡劣天氣、復雜的道路布局和不可預見的人類行為。
現有的自動駕駛系統通常包括 3D 感知、預測和規劃組成部分。具體來說,3D 感知僅限于檢測和跟蹤熟悉的物體,忽略了罕見物體及其屬性, 預測和規劃則關注物體的軌跡動作,通常會忽略物體和車輛之間的決策級交互。
自動駕駛需要從數據驅動迭代到知識驅動,通過訓練具備邏輯推理能力的大模型才能真正解決長尾問題,只有這樣才能邁向開放世界的 L4 級能力。隨著 GPT4、Sora 等大模型通過涌現、規模效應展現出強大 few-shot/zero-shot 能力,人們正在思考一條新路。
最近清華大學交叉信息研究院、理想汽車提交的新論文中,作者提出了 DriveVLM,受到最近生成式 AI 領域興起的視覺語言模型(VLM)啟發,DriveVLM 在視覺理解和推理方面表現出了非凡的
原文鏈接:清華叉院、理想提出DriveVLM,視覺大語言模型提升自動駕駛能力
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...