AIGC動態歡迎閱讀
內容摘要:
直播預告 | 1月22日晚7點,「自動駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環端到端自動駕駛框架》,歡迎掃名~本文轉載自公眾號:青稞AI,原作者:friedrichor@知乎,如需轉載請與原作者聯系。從最近一年很熱門的大型多模態模型(或者說多模態大語言模型)簡單談一下是怎么對齊不同模態的,如何使大語言模型(Large Language Models, LLM)能夠處理視覺任務。
去年11月ChatGPT的發布讓大家都認識到了大模型的實力。之前大家大部分應該還在做基于預訓練模型來添加些模型模塊(如cross attention等)在下游任務上微調或者做multi-task,也有做prompt的,大部分人的注意力還不在大模型上(這里我寫的預訓練模型模型還是區別于大模型的,類似于BERT、Vision Transformer這種的)。可能是因為GPT-3在其論文中的表現并不那么引人矚目,在下游任務上的性能并不如在相應任務數據集上微調過的預訓練模型,并且模型不開源,大家也沒法來探索大模型的潛在能力,
原文鏈接:多模態訓練,怎么對齊不同模態?
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...