清華叉院、理想提出DriveVLM,視覺大語言模型提升自動駕駛能力
AIGC動態(tài)歡迎閱讀
原標(biāo)題:清華叉院、理想提出DriveVLM,視覺大語言模型提升自動駕駛能力
關(guān)鍵字:場景,模型,數(shù)據(jù),關(guān)鍵,作者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7509字
內(nèi)容摘要:
機(jī)器之心報道
編輯:澤南在自動駕駛領(lǐng)域,研究人員也在朝著 GPT/Sora 等大模型方向進(jìn)行探索。
與生成式 AI 相比,自動駕駛也是近期 AI 最活躍的研究和開發(fā)領(lǐng)域之一。要想構(gòu)建完全的自動駕駛系統(tǒng),人們面臨的主要挑戰(zhàn)是 AI 的場景理解,這會涉及到復(fù)雜、不可預(yù)測的場景,例如惡劣天氣、復(fù)雜的道路布局和不可預(yù)見的人類行為。
現(xiàn)有的自動駕駛系統(tǒng)通常包括 3D 感知、預(yù)測和規(guī)劃組成部分。具體來說,3D 感知僅限于檢測和跟蹤熟悉的物體,忽略了罕見物體及其屬性, 預(yù)測和規(guī)劃則關(guān)注物體的軌跡動作,通常會忽略物體和車輛之間的決策級交互。
自動駕駛需要從數(shù)據(jù)驅(qū)動迭代到知識驅(qū)動,通過訓(xùn)練具備邏輯推理能力的大模型才能真正解決長尾問題,只有這樣才能邁向開放世界的 L4 級能力。隨著 GPT4、Sora 等大模型通過涌現(xiàn)、規(guī)模效應(yīng)展現(xiàn)出強(qiáng)大 few-shot/zero-shot 能力,人們正在思考一條新路。
最近清華大學(xué)交叉信息研究院、理想汽車提交的新論文中,作者提出了 DriveVLM,受到最近生成式 AI 領(lǐng)域興起的視覺語言模型(VLM)啟發(fā),DriveVLM 在視覺理解和推理方面表現(xiàn)出了非凡的
原文鏈接:清華叉院、理想提出DriveVLM,視覺大語言模型提升自動駕駛能力
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺