多模態(tài)訓練,怎么對齊不同模態(tài)?
AIGC動態(tài)歡迎閱讀
原標題:多模態(tài)訓練,怎么對齊不同模態(tài)?
關鍵字:知乎,模型,圖像,特征,文本
文章來源:算法邦
內(nèi)容字數(shù):5522字
內(nèi)容摘要:
直播預告 | 1月22日晚7點,「自動駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環(huán)端到端自動駕駛框架》,歡迎掃名~本文轉(zhuǎn)載自公眾號:青稞AI,原作者:friedrichor@知乎,如需轉(zhuǎn)載請與原作者聯(lián)系。從最近一年很熱門的大型多模態(tài)模型(或者說多模態(tài)大語言模型)簡單談一下是怎么對齊不同模態(tài)的,如何使大語言模型(Large Language Models, LLM)能夠處理視覺任務。
去年11月ChatGPT的發(fā)布讓大家都認識到了大模型的實力。之前大家大部分應該還在做基于預訓練模型來添加些模型模塊(如cross attention等)在下游任務上微調(diào)或者做multi-task,也有做prompt的,大部分人的注意力還不在大模型上(這里我寫的預訓練模型模型還是區(qū)別于大模型的,類似于BERT、Vision Transformer這種的)。可能是因為GPT-3在其論文中的表現(xiàn)并不那么引人矚目,在下游任務上的性能并不如在相應任務數(shù)據(jù)集上微調(diào)過的預訓練模型,并且模型不開源,大家也沒法來探索大模型的潛在能力,
原文鏈接:多模態(tài)訓練,怎么對齊不同模態(tài)?
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。