COLING24｜自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍，哈工大等推出SmartTrim

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：COLING24｜自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍，哈工大等推出SmartTrim
關(guān)鍵字：模型,冗余,方法,實(shí)例,開(kāi)銷(xiāo)
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4690字

內(nèi)容摘要：

機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部基于 Transformer 結(jié)構(gòu)的視覺(jué)語(yǔ)言大模型（VLM）在各種下游的視覺(jué)語(yǔ)言任務(wù)上取得了巨大成功，但由于其較長(zhǎng)的輸入序列和較多的參數(shù)，導(dǎo)致其相應(yīng)的計(jì)算開(kāi)銷(xiāo)地提升，阻礙了在實(shí)際環(huán)境中進(jìn)一步部署。為了追求更為高效的推理速度，前人提出了一些針對(duì) VLM 的加速方法，包括剪枝和蒸餾等，但是現(xiàn)有的這些方法大都采用靜態(tài)架構(gòu)，其針對(duì)不同輸入實(shí)例采用同樣的計(jì)算圖進(jìn)行推理，忽略了不同實(shí)例之間具有不同計(jì)算復(fù)雜性的事實(shí)：針對(duì)復(fù)雜的跨模態(tài)交互實(shí)例，自然需要更多計(jì)算才能完全理解圖像和相關(guān)問(wèn)題的復(fù)雜細(xì)節(jié)；相反，簡(jiǎn)單的實(shí)例則可以用更少的計(jì)算量解決。這也導(dǎo)致較高加速比下的 VLM 的性能?chē)?yán)重下降。
為了解決上述這些問(wèn)題，哈工大聯(lián)合度小滿(mǎn)推出針對(duì)多模態(tài)模型的自適應(yīng)剪枝算法 SmartTrim，論文已被自然語(yǔ)言處理頂級(jí)會(huì)議 COLING 24 接收。前期探究和研究動(dòng)機(jī)
本文首先針對(duì) VLM 中每一層的 token 表示和 attention head 的冗余情況進(jìn)行分析，如下圖所示。我們有了以下發(fā)現(xiàn)：（1）無(wú)論是哪種模態(tài)的 token 或者 head，層內(nèi)相似性始終很高，說(shuō)明模型是存在顯著

原文鏈接：COLING24｜自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍，哈工大等推出SmartTrim