本文在 Qwen2-VL 和 InternVL2.0 上驗證了此種剪枝策略的普適性。
多模態大模型的剪枝策略研究
隨著大語言模型的成功,多模態大模型在視覺、文本等多模態任務中表現出了強大的能力。然而,視覺 token 數量的急劇增加使得計算復雜度顯著提升,限制了模型的可擴展性與應用效率。本文提出了一系列針對多模態大模型的剪枝策略,以 LLaVA 為實驗對象,旨在通過參數和計算模式層面的冗余優化,顯著降低計算開銷,同時保持模型的性能。
1. 研究動機
在多模態大模型中,視覺 token 的數量遠超文本 token,導致計算效率低下,尤其是在大規模模型中,注意力機制的復雜度隨著輸入 token 數量的增加呈二次增長。此外,現有的優化策略常常以犧牲模型性能為代價,因此如何在不影響性能的前提下降低計算復雜度成為一個重要的研究方向。
2. 提出的剪枝策略
本文提出了四種主要的剪枝策略:
- 鄰域感知的視覺注意力:通過限制視覺 token 之間的交互僅發生在鄰近 token 之間,顯著減少了無用的計算開銷。
- 非活躍注意力頭的剪枝:分析發現部分注意力頭沒有被激活,剪除這些冗余的注意力頭幾乎不會影響模型性能。
- 稀疏前饋網絡投影:在前饋網絡中隨機丟棄部分神經元,利用視覺表達的稀疏性來降低計算量。
- 選擇性層丟棄:通過跳過靠后層的視覺計算,減少計算開銷,進一步提高效率。
3. 實驗結果
研究團隊在 LLaVA-1.5 模型上應用了上述剪枝策略,結果顯示 FLOPs 分別被壓縮至 25% 和 12%。在多個基準任務上,剪枝后的模型在相同計算預算下表現最佳,超出其他方法的性能。此外,驗證剪枝策略的普適性后,發現該方法在 Qwen2-VL 和 InternVL2.0 等其他多模態大模型上同樣有效。
4. 總結與展望
本文的研究為多模態大模型的高效計算提供了新的視角。通過深入挖掘視覺參數與計算模式的冗余性,不僅實現了顯著的計算開銷降低,還在一定程度上保持了模型性能。未來,研究團隊將繼續探索如何在更廣泛的多模態場景中應用這些剪枝策略,推動大模型的實際應用落地。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...