來自360人工智能研究院
原標題:為多模態LLM引入ControlNet理念,開源插件解決災難性遺忘 | AAAI
文章來源:量子位
內容字數:3545字
360人工智能研究院提出IAA:解決多模態大模型災難性遺忘問題
本文總結了360人工智能研究院提出的IAA (Inner-Adaptor-Architecture) 架構,該架構旨在解決當前多模態大模型(LMM)中存在的災難性遺忘問題,并已被AAAI 2025接收,代碼已開源。
1. 多模態大模型的挑戰:災難性遺忘
當前主流的橋接式LMM結構,例如LLaVA系列、QwenVL、DeepSeekVL等,為了提升多模態理解能力,通常需要打開內嵌LLM的參數進行多模態訓練。這種方法雖然能提升多模態任務性能,但卻會導致LLM在文本理解能力上出現嚴重的“災難性遺忘”,最終需要部署多模態模型,造成成本增加。
2. IAA的靈感來源:文生圖領域的ControlNet
360人工智能研究院受到文生圖領域ControlNet插件化機制的啟發,提出了IAA架構。ControlNet允許在不改變基座模型的情況下,通過插件添加新的功能。IAA試圖將這種思路應用于語言模型,從而解決多模態模型的災難性遺忘問題。
3. IAA的核心思路:插件化多模態理解能力
IAA的核心思想是將多模態理解能力作為插件添加到基座語言模型之上。與直接修改基座模型參數不同,IAA通過新增的插入層來處理多模態信息,從而避免了對基座模型參數的修改,有效防止了災難性遺忘。這種插件化設計也使得IAA可以靈活地添加其他專業插件,例如代碼或數學插件,從而擴展基座模型的能力。
4. IAA的優勢:高效、經濟、靈活
IAA具有以下優勢:
- 避免了災難性遺忘:通過保持基座語言模型參數不變,IAA有效避免了多模態訓練導致的文本理解能力下降。
- 降低部署成本:推理時只需要部署一套模型權重,text-only任務和多模態任務分別走不同的流程,避免了多套模型的部署成本。
- 支持插件化擴展:IAA可以靈活地添加各種插件,以增強基座模型在特定任務上的能力,例如代碼、數學等。
5. 實驗結果和未來展望
實驗結果表明,IAA在保持模型原有能力的同時,能有效提升其在多模態任務上的表現。IAA架構為構建高效、經濟、靈活的多模態語言模型生態體系提供了一種新的思路。
6. 360人工智能研究院的AI布局
360人工智能研究院在“All in AI”戰略下,積極研發多模態理解和生成大模型,取得了一系列成果,包括360VL、BDM、HiCo以及Qihoo-T2X等。IAA和BDM的成果被AAAI 2025接收,展現了該研究院在AI領域的強大實力。
總之,IAA架構為解決多模態大模型的災難性遺忘問題提供了一種有效的方案,其插件化設計也為構建更加靈活和強大的語言模型生態體系奠定了基礎。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破