來自360人工智能研究院
原標題:為多模態LLM引入ControlNet理念,開源插件解決災難性遺忘 | AAAI
文章來源:量子位
內容字數:3545字
多模態大模型的災難性遺忘問題及其解決方案
隨著人工智能的發展,多模態大模型(LMM)在視覺和語言理解方面的能力不斷提升。然而,在這一過程中,內嵌的語言模型常常面臨“災難性遺忘”的問題,即在多模態訓練中,模型的文本理解能力下降。本文將介紹360人工智能研究院提出的IAA(Inner Adaptor Architecture)解決方案,該研究成果已被AAAI會議接收并開源。
1. 災難性遺忘的背景
當前主流的多模態大模型,如LLaVA系列,采用橋接式結構,通過模態橋接器連接視覺編碼器與語言模型。這種結構雖然簡單且訓練成本低,但在多模態訓練中,語言模型的參數需要參與學習,從而導致文本能力的下降。這一現象使得多模態模型往往需要部署,增加了應用的經濟成本。
2. IAA的核心思路
IAA的核心思想是借鑒文生圖領域的ControlNet結構,將多模態理解能力作為插件添加到基座語言模型之上。該方法不僅避免了災難性遺忘問題,還允許在保持語言模型原有能力的前提下,提升其在多模態任務上的表現。
3. IAA插件架構的特點
IAA的設計保持了基座語言模型的參數不變,通過新增的插入層專門處理多模態知識的學習。推理時,IAA網絡只需部署一套模型權重,能夠有效減少部署成本。此外,IAA結構不僅適用于多模態任務,也可用于增強其他專業任務(如代碼和數學)的能力。
4. 實驗驗證與應用前景
在通用多模態基準測試中,IAA在保持模型原有能力的同時,顯著提升了多模態任務的表現。這一創新架構有望為多模態理解和生成大模型的發展提供全新思路,并在實際應用中降低成本。
5. 結論
360人工智能研究院的IAA研究展示了如何在多模態大模型中有效解決災難性遺忘的問題,為人工智能的多模態理解能力的進一步發展奠定了基礎。未來,IAA有望在更廣泛的領域中得到應用,推動AI技術的不斷進步。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破