性ControlNet插件:多模態(tài)LLM的災難性遺忘難題
來自360人工智能研究院
原標題:為多模態(tài)LLM引入ControlNet理念,開源插件解決災難性遺忘 | AAAI
文章來源:量子位
內(nèi)容字數(shù):3545字
多模態(tài)大模型的災難性遺忘問題及其解決方案
隨著人工智能的發(fā)展,多模態(tài)大模型(LMM)在視覺和語言理解方面的能力不斷提升。然而,在這一過程中,內(nèi)嵌的語言模型常常面臨“災難性遺忘”的問題,即在多模態(tài)訓練中,模型的文本理解能力下降。本文將介紹360人工智能研究院提出的IAA(Inner Adaptor Architecture)解決方案,該研究成果已被AAAI會議接收并開源。
1. 災難性遺忘的背景
當前主流的多模態(tài)大模型,如LLaVA系列,采用橋接式結(jié)構(gòu),通過模態(tài)橋接器連接視覺編碼器與語言模型。這種結(jié)構(gòu)雖然簡單且訓練成本低,但在多模態(tài)訓練中,語言模型的參數(shù)需要參與學習,從而導致文本能力的下降。這一現(xiàn)象使得多模態(tài)模型往往需要部署,增加了應用的經(jīng)濟成本。
2. IAA的核心思路
IAA的核心思想是借鑒文生圖領域的ControlNet結(jié)構(gòu),將多模態(tài)理解能力作為插件添加到基座語言模型之上。該方法不僅避免了災難性遺忘問題,還允許在保持語言模型原有能力的前提下,提升其在多模態(tài)任務上的表現(xiàn)。
3. IAA插件架構(gòu)的特點
IAA的設計保持了基座語言模型的參數(shù)不變,通過新增的插入層專門處理多模態(tài)知識的學習。推理時,IAA網(wǎng)絡只需部署一套模型權(quán)重,能夠有效減少部署成本。此外,IAA結(jié)構(gòu)不僅適用于多模態(tài)任務,也可用于增強其他專業(yè)任務(如代碼和數(shù)學)的能力。
4. 實驗驗證與應用前景
在通用多模態(tài)基準測試中,IAA在保持模型原有能力的同時,顯著提升了多模態(tài)任務的表現(xiàn)。這一創(chuàng)新架構(gòu)有望為多模態(tài)理解和生成大模型的發(fā)展提供全新思路,并在實際應用中降低成本。
5. 結(jié)論
360人工智能研究院的IAA研究展示了如何在多模態(tài)大模型中有效解決災難性遺忘的問題,為人工智能的多模態(tài)理解能力的進一步發(fā)展奠定了基礎。未來,IAA有望在更廣泛的領域中得到應用,推動AI技術的不斷進步。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破