為多模態(tài)LLM引入ControlNet理念,開源插件解決災(zāi)難性遺忘 | AAAI
來自360人工智能研究院
原標(biāo)題:為多模態(tài)LLM引入ControlNet理念,開源插件解決災(zāi)難性遺忘 | AAAI
文章來源:量子位
內(nèi)容字?jǐn)?shù):3545字
360人工智能研究院提出IAA:解決多模態(tài)大模型災(zāi)難性遺忘問題
本文總結(jié)了360人工智能研究院提出的IAA (Inner-Adaptor-Architecture) 架構(gòu),該架構(gòu)旨在解決當(dāng)前多模態(tài)大模型(LMM)中存在的災(zāi)難性遺忘問題,并已被AAAI 2025接收,代碼已開源。
1. 多模態(tài)大模型的挑戰(zhàn):災(zāi)難性遺忘
當(dāng)前主流的橋接式LMM結(jié)構(gòu),例如LLaVA系列、QwenVL、DeepSeekVL等,為了提升多模態(tài)理解能力,通常需要打開內(nèi)嵌LLM的參數(shù)進(jìn)行多模態(tài)訓(xùn)練。這種方法雖然能提升多模態(tài)任務(wù)性能,但卻會導(dǎo)致LLM在文本理解能力上出現(xiàn)嚴(yán)重的“災(zāi)難性遺忘”,最終需要部署多模態(tài)模型,造成成本增加。
2. IAA的靈感來源:文生圖領(lǐng)域的ControlNet
360人工智能研究院受到文生圖領(lǐng)域ControlNet插件化機(jī)制的啟發(fā),提出了IAA架構(gòu)。ControlNet允許在不改變基座模型的情況下,通過插件添加新的功能。IAA試圖將這種思路應(yīng)用于語言模型,從而解決多模態(tài)模型的災(zāi)難性遺忘問題。
3. IAA的核心思路:插件化多模態(tài)理解能力
IAA的核心思想是將多模態(tài)理解能力作為插件添加到基座語言模型之上。與直接修改基座模型參數(shù)不同,IAA通過新增的插入層來處理多模態(tài)信息,從而避免了對基座模型參數(shù)的修改,有效防止了災(zāi)難性遺忘。這種插件化設(shè)計也使得IAA可以靈活地添加其他專業(yè)插件,例如代碼或數(shù)學(xué)插件,從而擴(kuò)展基座模型的能力。
4. IAA的優(yōu)勢:高效、經(jīng)濟(jì)、靈活
IAA具有以下優(yōu)勢:
- 避免了災(zāi)難性遺忘:通過保持基座語言模型參數(shù)不變,IAA有效避免了多模態(tài)訓(xùn)練導(dǎo)致的文本理解能力下降。
- 降低部署成本:推理時只需要部署一套模型權(quán)重,text-only任務(wù)和多模態(tài)任務(wù)分別走不同的流程,避免了多套模型的部署成本。
- 支持插件化擴(kuò)展:IAA可以靈活地添加各種插件,以增強(qiáng)基座模型在特定任務(wù)上的能力,例如代碼、數(shù)學(xué)等。
5. 實驗結(jié)果和未來展望
實驗結(jié)果表明,IAA在保持模型原有能力的同時,能有效提升其在多模態(tài)任務(wù)上的表現(xiàn)。IAA架構(gòu)為構(gòu)建高效、經(jīng)濟(jì)、靈活的多模態(tài)語言模型生態(tài)體系提供了一種新的思路。
6. 360人工智能研究院的AI布局
360人工智能研究院在“All in AI”戰(zhàn)略下,積極研發(fā)多模態(tài)理解和生成大模型,取得了一系列成果,包括360VL、BDM、HiCo以及Qihoo-T2X等。IAA和BDM的成果被AAAI 2025接收,展現(xiàn)了該研究院在AI領(lǐng)域的強(qiáng)大實力。
總之,IAA架構(gòu)為解決多模態(tài)大模型的災(zāi)難性遺忘問題提供了一種有效的方案,其插件化設(shè)計也為構(gòu)建更加靈活和強(qiáng)大的語言模型生態(tài)體系奠定了基礎(chǔ)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破