AIGC動態歡迎閱讀
內容摘要:
7月11日19點,「智猩猩自動駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環規劃智能體PlanAgent,由理想汽車實習研究員、中國科學院自動化研究所在讀博士鄭宇鵬主講,主題為《面向自動駕駛的3D密集描述與閉環規劃智能體》。掃碼預約視頻號直播~去年年初LLM剛起步的時候,大模型的部署方案還不是很成熟,如今僅僅過了一年多,LLM部署方案已經遍地都是了。
而多模態模型相比大語言模型來說,發展的還沒有很“特別”成熟,不過由于兩者結構很相似,LLMs的經驗還是可以很好地利用到VLMs中。
本篇文章中提到的多模態指的是視覺多模態,即VLM(Vision Language Models)。
以下用一張圖展示下簡單多模態模型的運行流程:
Text Embeddings即文本輸入,就是常見LLM中的輸入;
而Multomode projector則是多模態模型額外一個模態的輸入,這里指的是視覺輸入信息,當然是轉換維度之后的;
將這個轉換維度之后的視覺特征和Text Embeddings執行concat操作合并起來,輸入decoder中(例如llama)就完成推理流程了;
Mu
原文鏈接:多模態模型(VLM)部署方法拋磚引玉
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...