多模態(tài)模型(VLM)部署方法拋磚引玉
AIGC動態(tài)歡迎閱讀
原標(biāo)題:多模態(tài)模型(VLM)部署方法拋磚引玉
關(guān)鍵字:模型,視覺,特征,圖像,結(jié)構(gòu)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
7月11日19點,「智猩猩自動駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent,由理想汽車實習(xí)研究員、中國科學(xué)院自動化研究所在讀博士鄭宇鵬主講,主題為《面向自動駕駛的3D密集描述與閉環(huán)規(guī)劃智能體》。掃碼預(yù)約視頻號直播~去年年初LLM剛起步的時候,大模型的部署方案還不是很成熟,如今僅僅過了一年多,LLM部署方案已經(jīng)遍地都是了。
而多模態(tài)模型相比大語言模型來說,發(fā)展的還沒有很“特別”成熟,不過由于兩者結(jié)構(gòu)很相似,LLMs的經(jīng)驗還是可以很好地利用到VLMs中。
本篇文章中提到的多模態(tài)指的是視覺多模態(tài),即VLM(Vision Language Models)。
以下用一張圖展示下簡單多模態(tài)模型的運行流程:
Text Embeddings即文本輸入,就是常見LLM中的輸入;
而Multomode projector則是多模態(tài)模型額外一個模態(tài)的輸入,這里指的是視覺輸入信息,當(dāng)然是轉(zhuǎn)換維度之后的;
將這個轉(zhuǎn)換維度之后的視覺特征和Text Embeddings執(zhí)行concat操作合并起來,輸入decoder中(例如llama)就完成推理流程了;
Mu
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。