多模態(tài)模型(VLM)部署方法拋磚引玉

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:多模態(tài)模型(VLM)部署方法拋磚引玉
關(guān)鍵字:模型,視覺,特征,圖像,結(jié)構(gòu)
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
7月11日19點(diǎn),「智猩猩自動(dòng)駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent,由理想汽車實(shí)習(xí)研究員、中國(guó)科學(xué)院自動(dòng)化研究所在讀博士鄭宇鵬主講,主題為《面向自動(dòng)駕駛的3D密集描述與閉環(huán)規(guī)劃智能體》。掃碼預(yù)約視頻號(hào)直播~去年年初LLM剛起步的時(shí)候,大模型的部署方案還不是很成熟,如今僅僅過(guò)了一年多,LLM部署方案已經(jīng)遍地都是了。
而多模態(tài)模型相比大語(yǔ)言模型來(lái)說(shuō),發(fā)展的還沒有很“特別”成熟,不過(guò)由于兩者結(jié)構(gòu)很相似,LLMs的經(jīng)驗(yàn)還是可以很好地利用到VLMs中。
本篇文章中提到的多模態(tài)指的是視覺多模態(tài),即VLM(Vision Language Models)。
以下用一張圖展示下簡(jiǎn)單多模態(tài)模型的運(yùn)行流程:
Text Embeddings即文本輸入,就是常見LLM中的輸入;
而Multomode projector則是多模態(tài)模型額外一個(gè)模態(tài)的輸入,這里指的是視覺輸入信息,當(dāng)然是轉(zhuǎn)換維度之后的;
將這個(gè)轉(zhuǎn)換維度之后的視覺特征和Text Embeddings執(zhí)行concat操作合并起來(lái),輸入decoder中(例如llama)就完成推理流程了;
Mu
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。

粵公網(wǎng)安備 44011502001135號(hào)