為多模態(tài)LLM引入ControlNet理念，開源插件解決災(zāi)難性遺忘 | AAAI

來自360人工智能研究院

原標(biāo)題：為多模態(tài)LLM引入ControlNet理念，開源插件解決災(zāi)難性遺忘 | AAAI
文章來源：量子位
內(nèi)容字?jǐn)?shù)：3545字

360人工智能研究院提出IAA：解決多模態(tài)大模型災(zāi)難性遺忘問題

本文總結(jié)了360人工智能研究院提出的IAA (Inner-Adaptor-Architecture) 架構(gòu)，該架構(gòu)旨在解決當(dāng)前多模態(tài)大模型(LMM)中存在的災(zāi)難性遺忘問題，并已被AAAI 2025接收，代碼已開源。

1. 多模態(tài)大模型的挑戰(zhàn)：災(zāi)難性遺忘

當(dāng)前主流的橋接式LMM結(jié)構(gòu)，例如LLaVA系列、QwenVL、DeepSeekVL等，為了提升多模態(tài)理解能力，通常需要打開內(nèi)嵌LLM的參數(shù)進(jìn)行多模態(tài)訓(xùn)練。這種方法雖然能提升多模態(tài)任務(wù)性能，但卻會導(dǎo)致LLM在文本理解能力上出現(xiàn)嚴(yán)重的“災(zāi)難性遺忘”，最終需要部署多模態(tài)模型，造成成本增加。

2. IAA的靈感來源：文生圖領(lǐng)域的ControlNet

360人工智能研究院受到文生圖領(lǐng)域ControlNet插件化機(jī)制的啟發(fā)，提出了IAA架構(gòu)。ControlNet允許在不改變基座模型的情況下，通過插件添加新的功能。IAA試圖將這種思路應(yīng)用于語言模型，從而解決多模態(tài)模型的災(zāi)難性遺忘問題。

3. IAA的核心思路：插件化多模態(tài)理解能力

IAA的核心思想是將多模態(tài)理解能力作為插件添加到基座語言模型之上。與直接修改基座模型參數(shù)不同，IAA通過新增的插入層來處理多模態(tài)信息，從而避免了對基座模型參數(shù)的修改，有效防止了災(zāi)難性遺忘。這種插件化設(shè)計也使得IAA可以靈活地添加其他專業(yè)插件，例如代碼或數(shù)學(xué)插件，從而擴(kuò)展基座模型的能力。

4. IAA的優(yōu)勢：高效、經(jīng)濟(jì)、靈活

IAA具有以下優(yōu)勢：

避免了災(zāi)難性遺忘：通過保持基座語言模型參數(shù)不變，IAA有效避免了多模態(tài)訓(xùn)練導(dǎo)致的文本理解能力下降。
降低部署成本：推理時只需要部署一套模型權(quán)重，text-only任務(wù)和多模態(tài)任務(wù)分別走不同的流程，避免了多套模型的部署成本。
支持插件化擴(kuò)展：IAA可以靈活地添加各種插件，以增強(qiáng)基座模型在特定任務(wù)上的能力，例如代碼、數(shù)學(xué)等。

5. 實驗結(jié)果和未來展望

實驗結(jié)果表明，IAA在保持模型原有能力的同時，能有效提升其在多模態(tài)任務(wù)上的表現(xiàn)。IAA架構(gòu)為構(gòu)建高效、經(jīng)濟(jì)、靈活的多模態(tài)語言模型生態(tài)體系提供了一種新的思路。

6. 360人工智能研究院的AI布局

360人工智能研究院在“All in AI”戰(zhàn)略下，積極研發(fā)多模態(tài)理解和生成大模型，取得了一系列成果，包括360VL、BDM、HiCo以及Qihoo-T2X等。IAA和BDM的成果被AAAI 2025接收，展現(xiàn)了該研究院在AI領(lǐng)域的強(qiáng)大實力。

總之，IAA架構(gòu)為解決多模態(tài)大模型的災(zāi)難性遺忘問題提供了一種有效的方案，其插件化設(shè)計也為構(gòu)建更加靈活和強(qiáng)大的語言模型生態(tài)體系奠定了基礎(chǔ)。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動態(tài)# ControlNet # 多模態(tài)LLM # 開源插件 # 災(zāi)難性遺忘 # 知識保留

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

為多模態(tài)LLM引入ControlNet理念，開源插件解決災(zāi)難性遺忘 | AAAI

來自360人工智能研究院

360人工智能研究院提出IAA：解決多模態(tài)大模型災(zāi)難性遺忘問題

1. 多模態(tài)大模型的挑戰(zhàn)：災(zāi)難性遺忘

2. IAA的靈感來源：文生圖領(lǐng)域的ControlNet

3. IAA的核心思路：插件化多模態(tài)理解能力

4. IAA的優(yōu)勢：高效、經(jīng)濟(jì)、靈活

5. 實驗結(jié)果和未來展望

6. 360人工智能研究院的AI布局

聯(lián)系作者

線上分享| 面向機(jī)器人學(xué)習(xí)的數(shù)據(jù)高效觸覺表征

Sora：顛覆視覺體驗的4K高清盛宴，OpenAI如何重塑我們對物理世界的理解！

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點