顛覆性技術(shù)：將多模態(tài)大模型計(jì)算量削減至驚人的12%！

本文在 Qwen2-VL 和 InternVL2.0 上驗(yàn)證了此種剪枝策略的普適性。

原標(biāo)題：YOPO: 大幅縮減你的多模態(tài)大模型計(jì)算量至12%
文章來(lái)源：AI前線
內(nèi)容字?jǐn)?shù)：5853字

多模態(tài)大模型的剪枝策略研究

隨著大語(yǔ)言模型的成功，多模態(tài)大模型在視覺(jué)、文本等多模態(tài)任務(wù)中表現(xiàn)出了強(qiáng)大的能力。然而，視覺(jué) token 數(shù)量的急劇增加使得計(jì)算復(fù)雜度顯著提升，限制了模型的可擴(kuò)展性與應(yīng)用效率。本文提出了一系列針對(duì)多模態(tài)大模型的剪枝策略，以 LLaVA 為實(shí)驗(yàn)對(duì)象，旨在通過(guò)參數(shù)和計(jì)算模式層面的冗余優(yōu)化，顯著降低計(jì)算開(kāi)銷(xiāo)，同時(shí)保持模型的性能。

1. 研究動(dòng)機(jī)

在多模態(tài)大模型中，視覺(jué) token 的數(shù)量遠(yuǎn)超文本 token，導(dǎo)致計(jì)算效率低下，尤其是在大規(guī)模模型中，注意力機(jī)制的復(fù)雜度隨著輸入 token 數(shù)量的增加呈二次增長(zhǎng)。此外，現(xiàn)有的優(yōu)化策略常常以犧牲模型性能為代價(jià)，因此如何在不影響性能的前提下降低計(jì)算復(fù)雜度成為一個(gè)重要的研究方向。

2. 提出的剪枝策略

本文提出了四種主要的剪枝策略：

鄰域感知的視覺(jué)注意力：通過(guò)限制視覺(jué) token 之間的交互僅發(fā)生在鄰近 token 之間，顯著減少了無(wú)用的計(jì)算開(kāi)銷(xiāo)。
非活躍注意力頭的剪枝：分析發(fā)現(xiàn)部分注意力頭沒(méi)有被激活，剪除這些冗余的注意力頭幾乎不會(huì)影響模型性能。
稀疏前饋網(wǎng)絡(luò)投影：在前饋網(wǎng)絡(luò)中隨機(jī)丟棄部分神經(jīng)元，利用視覺(jué)表達(dá)的稀疏性來(lái)降低計(jì)算量。
選擇性層丟棄：通過(guò)跳過(guò)靠后層的視覺(jué)計(jì)算，減少計(jì)算開(kāi)銷(xiāo)，進(jìn)一步提高效率。

3. 實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在 LLaVA-1.5 模型上應(yīng)用了上述剪枝策略，結(jié)果顯示 FLOPs 分別被壓縮至 25% 和 12%。在多個(gè)基準(zhǔn)任務(wù)上，剪枝后的模型在相同計(jì)算預(yù)算下表現(xiàn)最佳，超出其他方法的性能。此外，驗(yàn)證剪枝策略的普適性后，發(fā)現(xiàn)該方法在 Qwen2-VL 和 InternVL2.0 等其他多模態(tài)大模型上同樣有效。

4. 總結(jié)與展望

本文的研究為多模態(tài)大模型的高效計(jì)算提供了新的視角。通過(guò)深入挖掘視覺(jué)參數(shù)與計(jì)算模式的冗余性，不僅實(shí)現(xiàn)了顯著的計(jì)算開(kāi)銷(xiāo)降低，還在一定程度上保持了模型性能。未來(lái)，研究團(tuán)隊(duì)將繼續(xù)探索如何在更廣泛的多模態(tài)場(chǎng)景中應(yīng)用這些剪枝策略，推動(dòng)大模型的實(shí)際應(yīng)用落地。

聯(lián)系作者

文章來(lái)源：AI前線
作者微信：
作者簡(jiǎn)介：面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家，提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例，助你全面擁抱AIGC。

閱讀原文

# AIGC動(dòng)態(tài)# YOPO # 人工智能優(yōu)化 # 多模態(tài)大模型 # 模型效率提升 # 計(jì)算量縮減

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

顛覆性技術(shù)：將多模態(tài)大模型計(jì)算量削減至驚人的12%！

本文在 Qwen2-VL 和 InternVL2.0 上驗(yàn)證了此種剪枝策略的普適性。

多模態(tài)大模型的剪枝策略研究

1. 研究動(dòng)機(jī)

2. 提出的剪枝策略

3. 實(shí)驗(yàn)結(jié)果

4. 總結(jié)與展望

聯(lián)系作者

勇攀人工智能巔峰，加入新智元開(kāi)啟你的ASI征程！

顛覆邊緣計(jì)算：Omnivision-968M引領(lǐng)最小多模態(tài)模型新時(shí)代！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

顛覆性技術(shù)：將多模態(tài)大模型計(jì)算量削減至驚人的12%！

本文在 Qwen2-VL 和 InternVL2.0 上驗(yàn)證了此種剪枝策略的普適性。

多模態(tài)大模型的剪枝策略研究

1. 研究動(dòng)機(jī)

2. 提出的剪枝策略

3. 實(shí)驗(yàn)結(jié)果

4. 總結(jié)與展望

聯(lián)系作者

勇攀人工智能巔峰，加入新智元開(kāi)啟你的ASI征程！

顛覆邊緣計(jì)算：Omnivision-968M引領(lǐng)最小多模態(tài)模型新時(shí)代！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

顛覆性技術(shù)：將多模態(tài)大模型計(jì)算量削減至驚人的12%！

本文在 Qwen2-VL 和 InternVL2.0 上驗(yàn)證了此種剪枝策略的普適性。

勇攀人工智能巔峰，加入新智元開(kāi)啟你的ASI征程！

顛覆邊緣計(jì)算：Omnivision-968M引領(lǐng)最小多模態(tài)模型新時(shí)代！