COLING24|自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍,哈工大等推出SmartTrim
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:COLING24|自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍,哈工大等推出SmartTrim
關(guān)鍵字:模型,冗余,方法,實(shí)例,開(kāi)銷(xiāo)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4690字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部基于 Transformer 結(jié)構(gòu)的視覺(jué)語(yǔ)言大模型(VLM)在各種下游的視覺(jué)語(yǔ)言任務(wù)上取得了巨大成功,但由于其較長(zhǎng)的輸入序列和較多的參數(shù),導(dǎo)致其相應(yīng)的計(jì)算開(kāi)銷(xiāo)地提升,阻礙了在實(shí)際環(huán)境中進(jìn)一步部署。為了追求更為高效的推理速度,前人提出了一些針對(duì) VLM 的加速方法,包括剪枝和蒸餾等,但是現(xiàn)有的這些方法大都采用靜態(tài)架構(gòu),其針對(duì)不同輸入實(shí)例采用同樣的計(jì)算圖進(jìn)行推理,忽略了不同實(shí)例之間具有不同計(jì)算復(fù)雜性的事實(shí):針對(duì)復(fù)雜的跨模態(tài)交互實(shí)例,自然需要更多計(jì)算才能完全理解圖像和相關(guān)問(wèn)題的復(fù)雜細(xì)節(jié);相反,簡(jiǎn)單的實(shí)例則可以用更少的計(jì)算量解決。這也導(dǎo)致較高加速比下的 VLM 的性能?chē)?yán)重下降。
為了解決上述這些問(wèn)題,哈工大聯(lián)合度小滿(mǎn)推出針對(duì)多模態(tài)模型的自適應(yīng)剪枝算法 SmartTrim,論文已被自然語(yǔ)言處理頂級(jí)會(huì)議 COLING 24 接收。前期探究和研究動(dòng)機(jī)
本文首先針對(duì) VLM 中每一層的 token 表示和 attention head 的冗余情況進(jìn)行分析,如下圖所示。我們有了以下發(fā)現(xiàn):(1)無(wú)論是哪種模態(tài)的 token 或者 head,層內(nèi)相似性始終很高,說(shuō)明模型是存在顯著
原文鏈接:COLING24|自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍,哈工大等推出SmartTrim
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)