突破12%計(jì)算量限制:YOPO剪枝技術(shù)讓模型性能大幅提升!
研究團(tuán)隊(duì)針對剪枝多模態(tài)大模型以實(shí)現(xiàn)高效計(jì)算的挑戰(zhàn)進(jìn)行了研究。
原標(biāo)題:12%計(jì)算量就能媲美原模型,Adobe、羅切斯特大學(xué)等提出YOPO剪枝技術(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5574字
研究背景
近年來,多模態(tài)大模型的能力隨著模型規(guī)模和輸入圖像分辨率的增加而顯著提升。然而,隨之而來的計(jì)算開銷也大幅增加,限制了其在實(shí)際應(yīng)用中的可擴(kuò)展性。近年來的研究表明,視覺 token 的數(shù)量通常顯著多于文本 token,這種不平衡造成了計(jì)算成本的急劇上升。為了解決這一問題,研究團(tuán)隊(duì)提出了一系列剪枝方案,以減少模型的計(jì)算冗余。
YOPO剪枝方案
本研究的核心是提出了一種名為 YOPO(You Only Prune Once)的剪枝方案,旨在在不增加額外計(jì)算量的前提下,有效減少多模態(tài)大模型的計(jì)算冗余。實(shí)驗(yàn)結(jié)果顯示,LLaVA-1.5 模型在保留僅12%計(jì)算量的情況下,仍能達(dá)到與原始模型相同的性能。
主要方法
研究團(tuán)隊(duì)提出了以下幾種剪枝策略:
- 鄰域感知視覺注意力:通過選擇性消除視覺 token 之間不必要的注意力計(jì)算,減少計(jì)算復(fù)雜度。
- 非活躍注意力頭剪枝:發(fā)現(xiàn)大約一半的注意力頭未被激活,提出對其進(jìn)行剪枝以消除冗余計(jì)算。
- 選擇性層丟棄:通過分析不同層的注意力權(quán)重,跳過后面的層中與視覺相關(guān)的計(jì)算。
- FFN中的稀疏視覺投影:在每個(gè) transformer 模塊內(nèi)隨機(jī)丟棄一定比例的神經(jīng)元,以有效利用視覺表示的稀疏性。
實(shí)驗(yàn)結(jié)果
在多個(gè)基準(zhǔn)測試上,提出的方法均取得了最佳結(jié)果,相比于其他剪枝方法,性能下降幅度更小。尤其是在大規(guī)模基準(zhǔn)測試 VQAv2 和 GQA 上,采用 YOPO 方法的模型在減少計(jì)算量的同時(shí),依然保持了良好的性能。
總結(jié)與展望
本研究通過分析多模態(tài)大模型中的冗余性,提出了一系列高效的剪枝策略,顯著降低了計(jì)算開銷,提升了模型的應(yīng)用潛力。未來,研究團(tuán)隊(duì)將繼續(xù)探索其他模型中的冗余,并進(jìn)一步優(yōu)化剪枝技術(shù),以實(shí)現(xiàn)更高效的多模態(tài)學(xué)習(xí)。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
相關(guān)文章
