清華叉院、理想提出DriveVLM,視覺大語言模型提升自動(dòng)駕駛能力

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:清華叉院、理想提出DriveVLM,視覺大語言模型提升自動(dòng)駕駛能力
關(guān)鍵字:場(chǎng)景,模型,數(shù)據(jù),關(guān)鍵,作者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7509字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:澤南在自動(dòng)駕駛領(lǐng)域,研究人員也在朝著 GPT/Sora 等大模型方向進(jìn)行探索。
與生成式 AI 相比,自動(dòng)駕駛也是近期 AI 最活躍的研究和開發(fā)領(lǐng)域之一。要想構(gòu)建完全的自動(dòng)駕駛系統(tǒng),人們面臨的主要挑戰(zhàn)是 AI 的場(chǎng)景理解,這會(huì)涉及到復(fù)雜、不可預(yù)測(cè)的場(chǎng)景,例如惡劣天氣、復(fù)雜的道路布局和不可預(yù)見的人類行為。
現(xiàn)有的自動(dòng)駕駛系統(tǒng)通常包括 3D 感知、預(yù)測(cè)和規(guī)劃組成部分。具體來說,3D 感知僅限于檢測(cè)和跟蹤熟悉的物體,忽略了罕見物體及其屬性, 預(yù)測(cè)和規(guī)劃則關(guān)注物體的軌跡動(dòng)作,通常會(huì)忽略物體和車輛之間的決策級(jí)交互。
自動(dòng)駕駛需要從數(shù)據(jù)驅(qū)動(dòng)迭代到知識(shí)驅(qū)動(dòng),通過訓(xùn)練具備邏輯推理能力的大模型才能真正解決長(zhǎng)尾問題,只有這樣才能邁向開放世界的 L4 級(jí)能力。隨著 GPT4、Sora 等大模型通過涌現(xiàn)、規(guī)模效應(yīng)展現(xiàn)出強(qiáng)大 few-shot/zero-shot 能力,人們正在思考一條新路。
最近清華大學(xué)交叉信息研究院、理想汽車提交的新論文中,作者提出了 DriveVLM,受到最近生成式 AI 領(lǐng)域興起的視覺語言模型(VLM)啟發(fā),DriveVLM 在視覺理解和推理方面表現(xiàn)出了非凡的
原文鏈接:清華叉院、理想提出DriveVLM,視覺大語言模型提升自動(dòng)駕駛能力
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)