多模態(tài)訓練，怎么對齊不同模態(tài)？

AIGC動態(tài)1年前 (2024)發(fā)布算法邦

AIGC動態(tài)歡迎閱讀

原標題：多模態(tài)訓練，怎么對齊不同模態(tài)？
關鍵字：知乎,模型,圖像,特征,文本
文章來源：算法邦
內(nèi)容字數(shù)：5522字

內(nèi)容摘要：

直播預告 | 1月22日晚7點，「自動駕駛新青年講座」第35講正式開講，LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive：大語言模型加持的閉環(huán)端到端自動駕駛框架》，歡迎掃名~本文轉(zhuǎn)載自公眾號：青稞AI，原作者：friedrichor@知乎，如需轉(zhuǎn)載請與原作者聯(lián)系。從最近一年很熱門的大型多模態(tài)模型(或者說多模態(tài)大語言模型)簡單談一下是怎么對齊不同模態(tài)的，如何使大語言模型(Large Language Models, LLM)能夠處理視覺任務。
去年11月ChatGPT的發(fā)布讓大家都認識到了大模型的實力。之前大家大部分應該還在做基于預訓練模型來添加些模型模塊（如cross attention等）在下游任務上微調(diào)或者做multi-task，也有做prompt的，大部分人的注意力還不在大模型上（這里我寫的預訓練模型模型還是區(qū)別于大模型的，類似于BERT、Vision Transformer這種的）。可能是因為GPT-3在其論文中的表現(xiàn)并不那么引人矚目，在下游任務上的性能并不如在相應任務數(shù)據(jù)集上微調(diào)過的預訓練模型，并且模型不開源，大家也沒法來探索大模型的潛在能力，

原文鏈接：多模態(tài)訓練，怎么對齊不同模態(tài)？