
AIGC動態歡迎閱讀
原標題:COLING24|自適應剪枝讓多模態大模型加速2-3倍,哈工大等推出SmartTrim
關鍵字:模型,冗余,方法,實例,開銷
文章來源:機器之心
內容字數:4690字
內容摘要:
機器之心專欄
機器之心編輯部基于 Transformer 結構的視覺語言大模型(VLM)在各種下游的視覺語言任務上取得了巨大成功,但由于其較長的輸入序列和較多的參數,導致其相應的計算開銷地提升,阻礙了在實際環境中進一步部署。為了追求更為高效的推理速度,前人提出了一些針對 VLM 的加速方法,包括剪枝和蒸餾等,但是現有的這些方法大都采用靜態架構,其針對不同輸入實例采用同樣的計算圖進行推理,忽略了不同實例之間具有不同計算復雜性的事實:針對復雜的跨模態交互實例,自然需要更多計算才能完全理解圖像和相關問題的復雜細節;相反,簡單的實例則可以用更少的計算量解決。這也導致較高加速比下的 VLM 的性能嚴重下降。
為了解決上述這些問題,哈工大聯合度小滿推出針對多模態模型的自適應剪枝算法 SmartTrim,論文已被自然語言處理頂級會議 COLING 24 接收。前期探究和研究動機
本文首先針對 VLM 中每一層的 token 表示和 attention head 的冗余情況進行分析,如下圖所示。我們有了以下發現:(1)無論是哪種模態的 token 或者 head,層內相似性始終很高,說明模型是存在顯著
原文鏈接:COLING24|自適應剪枝讓多模態大模型加速2-3倍,哈工大等推出SmartTrim
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號