Llama模仿Diffusion多模態(tài)漲分30%!不卷數(shù)據不燒卡,只需共享注意力分布
代碼/模型/訓練數(shù)據全開源
原標題:Llama模仿Diffusion多模態(tài)漲分30%!不卷數(shù)據不燒卡,只需共享注意力分布
文章來源:量子位
內容字數(shù):3008字
跨界學習:Stable Diffusion賦能多模態(tài)大模型,性能提升30%
近日,中國研究員聯(lián)合DeepMind團隊的研究成果《Lavender: Diffusion Instruction Tuning》引發(fā)關注。該研究巧妙地利用Stable Diffusion的圖像生成能力,提升了多模態(tài)大模型(如Llama-3.2)的視覺理解能力,在多模態(tài)問答任務中取得了顯著進展,性能提升高達30%。
1. 傳統(tǒng)多模態(tài)模型的困境
傳統(tǒng)的視覺語言模型(VLM)在處理視覺信息時常常面臨諸多挑戰(zhàn):數(shù)據不足、容易過擬合、細節(jié)捕捉能力差等,導致其“視覺理解能力”欠佳。這就像一個考試前突擊的“學渣”,難以取得好成績。
2. Lavender:Stable Diffusion的“跨界教學”
為了解決這個問題,研究團隊提出了一種創(chuàng)新的解決方案:借鑒Stable Diffusion的注意力機制,讓它來“教”多模態(tài)大模型如何“看圖說話”。這種“跨界教學”方法主要分為三步:
拜師學藝:VLM通過輕量級對齊網絡(Aligner)模仿Stable Diffusion的交叉注意力機制,學習其“看圖”技巧。
高效補課:僅使用13萬樣本(常規(guī)數(shù)據量的2.5%)和8塊GPU進行一天的訓練,實現(xiàn)了高效的模型優(yōu)化,避免了大規(guī)模數(shù)據和算力的消耗。
防偏科秘籍:利用LoRA技術,在保留原模型能力的基礎上,針對性地提升模型在薄弱環(huán)節(jié)的性能,避免過擬合,增強模型的魯棒性。
3. 顯著的性能提升
實驗結果表明,經過Lavender后的Llama-3.2在16項視覺-語言任務中均取得了顯著的性能提升。即使在小模型賽道上,也超過了SOTA模型50%。更令人驚訝的是,在醫(yī)學問答任務(WorldMedQA)中,性能提升甚至達到了68%,展現(xiàn)了其強大的泛化能力。
4. 核心技術亮點
Lavender的核心技術亮點在于:
注意力對齊:利用MSE損失函數(shù),將Stable Diffusion的高效注意力機制遷移到VLM中,提升視覺理解精度。
知識蒸餾:無需海量標注數(shù)據,直接從圖像生成模型中蒸餾視覺知識,實現(xiàn)了高效的小樣本學習。
LoRA與注意力約束:利用LoRA技術避免過擬合,增強模型的魯棒性,提升模型在分布外任務上的表現(xiàn)。
5. 開源與應用
該研究成果的代碼、模型和訓練數(shù)據均已開源,方便其他研究者進行復現(xiàn)和改進。Lavender的視覺理解能力在多種應用場景中得到了驗證,例如表格和圖表信息提取、復雜圖形理解以及多語言問答等,展現(xiàn)了其強大的實用價值。
6. 未來展望
研究團隊認為,高效、輕量的模型優(yōu)化比無腦堆參數(shù)更有未來,Lavender的成功為多模態(tài)大模型的優(yōu)化提供了新的思路和方法。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破