代碼/模型/訓練數據全開源
原標題:Llama模仿Diffusion多模態漲分30%!不卷數據不燒卡,只需共享注意力分布
文章來源:量子位
內容字數:3008字
跨界學習:Stable Diffusion賦能多模態大模型,性能提升30%
近日,中國研究員聯合DeepMind團隊的研究成果《Lavender: Diffusion Instruction Tuning》引發關注。該研究巧妙地利用Stable Diffusion的圖像生成能力,提升了多模態大模型(如Llama-3.2)的視覺理解能力,在多模態問答任務中取得了顯著進展,性能提升高達30%。
1. 傳統多模態模型的困境
傳統的視覺語言模型(VLM)在處理視覺信息時常常面臨諸多挑戰:數據不足、容易過擬合、細節捕捉能力差等,導致其“視覺理解能力”欠佳。這就像一個考試前突擊的“學渣”,難以取得好成績。
2. Lavender:Stable Diffusion的“跨界教學”
為了解決這個問題,研究團隊提出了一種創新的解決方案:借鑒Stable Diffusion的注意力機制,讓它來“教”多模態大模型如何“看圖說話”。這種“跨界教學”方法主要分為三步:
拜師學藝:VLM通過輕量級對齊網絡(Aligner)模仿Stable Diffusion的交叉注意力機制,學習其“看圖”技巧。
高效補課:僅使用13萬樣本(常規數據量的2.5%)和8塊GPU進行一天的訓練,實現了高效的模型優化,避免了大規模數據和算力的消耗。
防偏科秘籍:利用LoRA技術,在保留原模型能力的基礎上,針對性地提升模型在薄弱環節的性能,避免過擬合,增強模型的魯棒性。
3. 顯著的性能提升
實驗結果表明,經過Lavender后的Llama-3.2在16項視覺-語言任務中均取得了顯著的性能提升。即使在小模型賽道上,也超過了SOTA模型50%。更令人驚訝的是,在醫學問答任務(WorldMedQA)中,性能提升甚至達到了68%,展現了其強大的泛化能力。
4. 核心技術亮點
Lavender的核心技術亮點在于:
注意力對齊:利用MSE損失函數,將Stable Diffusion的高效注意力機制遷移到VLM中,提升視覺理解精度。
知識蒸餾:無需海量標注數據,直接從圖像生成模型中蒸餾視覺知識,實現了高效的小樣本學習。
LoRA與注意力約束:利用LoRA技術避免過擬合,增強模型的魯棒性,提升模型在分布外任務上的表現。
5. 開源與應用
該研究成果的代碼、模型和訓練數據均已開源,方便其他研究者進行復現和改進。Lavender的視覺理解能力在多種應用場景中得到了驗證,例如表格和圖表信息提取、復雜圖形理解以及多語言問答等,展現了其強大的實用價值。
6. 未來展望
研究團隊認為,高效、輕量的模型優化比無腦堆參數更有未來,Lavender的成功為多模態大模型的優化提供了新的思路和方法。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破