理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
關(guān)鍵字:場(chǎng)景,模塊,猩猩,論文,任務(wù)
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
「自動(dòng)駕駛新青年講座」由智猩猩企劃,致力于邀請(qǐng)全球知名高校、頂尖研究機(jī)構(gòu)以及優(yōu)秀企業(yè)的新青年,主講在環(huán)境感知、精準(zhǔn)定位、決策規(guī)劃、控制執(zhí)行等自動(dòng)駕駛關(guān)鍵技術(shù)上的最新研究成果和開發(fā)實(shí)踐。在自動(dòng)駕駛領(lǐng)域里,針對(duì)3D場(chǎng)景的正確理解是非常重要的。目前對(duì)于室內(nèi)場(chǎng)景采用3D密集字幕生成取得了很好的進(jìn)展,在室外場(chǎng)景中卻存在很大的局限性,不僅因?yàn)槭覂?nèi)、外場(chǎng)景之間存在域差距,還因?yàn)楫?dāng)前缺乏針對(duì)室外場(chǎng)景的具有全面框-字幕對(duì)標(biāo)注的數(shù)據(jù)。
基于當(dāng)前問(wèn)題,理想汽車聯(lián)合中科院自動(dòng)化所等研究人員提出一種室外3D密集描述任務(wù)TOD3Cap。該任務(wù)輸入為L(zhǎng)iDAR點(diǎn)云和全景相機(jī)組拍攝的一組RGB圖像,期望輸出為一組帶字幕的物體框。與TOD3Cap相關(guān)的論文收錄于ECCV 2024上.為了解決這一任務(wù),該團(tuán)隊(duì)提出了TOD3Cap網(wǎng)絡(luò),利用BEV表示生成物體框提議,集成了Relation Q-Former和LLaMA-Adapter生成這些物體的豐富字幕。同時(shí),還引入了TOD3Cap數(shù)據(jù)集,這是目前用于室外場(chǎng)景中3D密集字幕的最大的數(shù)據(jù)集,包含850個(gè)場(chǎng)景中64.3K個(gè)室外物體的2.3M個(gè)描述。軌跡規(guī)劃是自動(dòng)駕駛的核心模塊
原文鏈接:理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent | 講座預(yù)告
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。