顛覆性技術(shù):將多模態(tài)大模型計(jì)算量削減至驚人的12%!
本文在 Qwen2-VL 和 InternVL2.0 上驗(yàn)證了此種剪枝策略的普適性。
原標(biāo)題:YOPO: 大幅縮減你的多模態(tài)大模型計(jì)算量至12%
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):5853字
多模態(tài)大模型的剪枝策略研究
隨著大語(yǔ)言模型的成功,多模態(tài)大模型在視覺(jué)、文本等多模態(tài)任務(wù)中表現(xiàn)出了強(qiáng)大的能力。然而,視覺(jué) token 數(shù)量的急劇增加使得計(jì)算復(fù)雜度顯著提升,限制了模型的可擴(kuò)展性與應(yīng)用效率。本文提出了一系列針對(duì)多模態(tài)大模型的剪枝策略,以 LLaVA 為實(shí)驗(yàn)對(duì)象,旨在通過(guò)參數(shù)和計(jì)算模式層面的冗余優(yōu)化,顯著降低計(jì)算開(kāi)銷(xiāo),同時(shí)保持模型的性能。
1. 研究動(dòng)機(jī)
在多模態(tài)大模型中,視覺(jué) token 的數(shù)量遠(yuǎn)超文本 token,導(dǎo)致計(jì)算效率低下,尤其是在大規(guī)模模型中,注意力機(jī)制的復(fù)雜度隨著輸入 token 數(shù)量的增加呈二次增長(zhǎng)。此外,現(xiàn)有的優(yōu)化策略常常以犧牲模型性能為代價(jià),因此如何在不影響性能的前提下降低計(jì)算復(fù)雜度成為一個(gè)重要的研究方向。
2. 提出的剪枝策略
本文提出了四種主要的剪枝策略:
- 鄰域感知的視覺(jué)注意力:通過(guò)限制視覺(jué) token 之間的交互僅發(fā)生在鄰近 token 之間,顯著減少了無(wú)用的計(jì)算開(kāi)銷(xiāo)。
- 非活躍注意力頭的剪枝:分析發(fā)現(xiàn)部分注意力頭沒(méi)有被激活,剪除這些冗余的注意力頭幾乎不會(huì)影響模型性能。
- 稀疏前饋網(wǎng)絡(luò)投影:在前饋網(wǎng)絡(luò)中隨機(jī)丟棄部分神經(jīng)元,利用視覺(jué)表達(dá)的稀疏性來(lái)降低計(jì)算量。
- 選擇性層丟棄:通過(guò)跳過(guò)靠后層的視覺(jué)計(jì)算,減少計(jì)算開(kāi)銷(xiāo),進(jìn)一步提高效率。
3. 實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在 LLaVA-1.5 模型上應(yīng)用了上述剪枝策略,結(jié)果顯示 FLOPs 分別被壓縮至 25% 和 12%。在多個(gè)基準(zhǔn)任務(wù)上,剪枝后的模型在相同計(jì)算預(yù)算下表現(xiàn)最佳,超出其他方法的性能。此外,驗(yàn)證剪枝策略的普適性后,發(fā)現(xiàn)該方法在 Qwen2-VL 和 InternVL2.0 等其他多模態(tài)大模型上同樣有效。
4. 總結(jié)與展望
本文的研究為多模態(tài)大模型的高效計(jì)算提供了新的視角。通過(guò)深入挖掘視覺(jué)參數(shù)與計(jì)算模式的冗余性,不僅實(shí)現(xiàn)了顯著的計(jì)算開(kāi)銷(xiāo)降低,還在一定程度上保持了模型性能。未來(lái),研究團(tuán)隊(duì)將繼續(xù)探索如何在更廣泛的多模態(tài)場(chǎng)景中應(yīng)用這些剪枝策略,推動(dòng)大模型的實(shí)際應(yīng)用落地。
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:
作者簡(jiǎn)介:面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。