NVIDIA Research 研究科學家李柏依：探索基于多模態LLM 的自動駕駛智能體 | 公開課預告

AIGC動態歡迎閱讀

原標題：NVIDIA Research 研究科學家李柏依：探索基于多模態LLM 的自動駕駛智能體 | 公開課預告
關鍵字：解讀,智能,場景,能力,環境
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

讓自動駕駛系統適應新環境和不同地區的習慣和法規是自動駕駛領域長期面臨的挑戰。NVIDIA Research 團隊提出的自動駕駛智能體 LLaDA 能夠利用 LLM 生成適應不同環境的駕駛策略和指令，為駕駛員和自動駕駛汽車提供多語言和地區交通規則的實時指導，幫助他們更輕松地在陌生的地方導航。此外，LLaDA 還能幫助自動駕駛汽車重新規劃出與當地環境更加匹配的軌跡，調整自動駕駛汽車的規劃策略。相關論文成果收錄于CVPR 2024。然而，LLaDA 無法實現場景的自動識別，且對場景描述的質量有著較高要求。盡管 GPT-4V 能夠提供這種描述，但是卻不夠準確。為此，NVIDIA Research 提出一個創新的自動化視頻字幕生成框架 Wolf。Wolf 采用專家混合方法，利用視覺語言模型(VLMs)的互補優勢，能夠提升自動駕駛智能體的場景理解能力。此外，LLaDA 通常是與用戶直接交互，并主要處理文本信息。相比之下，自動駕駛系統則需要提供具體的位置和軌跡規劃信息。基于這些差異，NVIDIA Research 團隊專為自動駕駛領域設計出一種多模態大型語言模型（MM-LLM）TOKEN。T

原文鏈接：NVIDIA Research 研究科學家李柏依：探索基于多模態LLM 的自動駕駛智能體 | 公開課預告