理想汽車最新成果：基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告

AIGC動態(tài)1年前 (2024)發(fā)布算法邦

理想汽車最新成果：基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告

AIGC動態(tài)歡迎閱讀

原標(biāo)題：理想汽車最新成果：基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
關(guān)鍵字：場景,模塊,猩猩,論文,任務(wù)
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

「自動駕駛新青年講座」由智猩猩企劃，致力于邀請全球知名高校、頂尖研究機(jī)構(gòu)以及優(yōu)秀企業(yè)的新青年，主講在環(huán)境感知、精準(zhǔn)定位、決策規(guī)劃、控制執(zhí)行等自動駕駛關(guān)鍵技術(shù)上的最新研究成果和開發(fā)實踐。在自動駕駛領(lǐng)域里，針對3D場景的正確理解是非常重要的。目前對于室內(nèi)場景采用3D密集字幕生成取得了很好的進(jìn)展，在室外場景中卻存在很大的局限性，不僅因為室內(nèi)、外場景之間存在域差距，還因為當(dāng)前缺乏針對室外場景的具有全面框-字幕對標(biāo)注的數(shù)據(jù)。
基于當(dāng)前問題，理想汽車聯(lián)合中科院自動化所等研究人員提出一種室外3D密集描述任務(wù)TOD3Cap。該任務(wù)輸入為LiDAR點云和全景相機(jī)組拍攝的一組RGB圖像，期望輸出為一組帶字幕的物體框。與TOD3Cap相關(guān)的論文收錄于ECCV 2024上.為了解決這一任務(wù)，該團(tuán)隊提出了TOD3Cap網(wǎng)絡(luò)，利用BEV表示生成物體框提議，集成了Relation Q-Former和LLaMA-Adapter生成這些物體的豐富字幕。同時，還引入了TOD3Cap數(shù)據(jù)集，這是目前用于室外場景中3D密集字幕的最大的數(shù)據(jù)集，包含850個場景中64.3K個室外物體的2.3M個描述。軌跡規(guī)劃是自動駕駛的核心模塊