多模態視覺token壓縮方法（持續更新）

導讀作者為葡萄是貓原文來自知乎，地址：https://zhuanlan.zhihu.com/p/8776092026本文只做學術/技術分享，如有侵權，聯系刪文。01簡要為提升MLLM對圖像、視頻的理解能力，最有效的方式就是提升visual token的個數，隨之而來的則是訓練、推理耗時的增加。因此，對視覺token進行壓縮以提取最有用的信息至關重要。下文基于個人理解，進行梳理。已知技術方案概覽：1.線性映射：采用多層MLP進行壓縮，如Qwen2-VL中2.下采樣：采用Pooling（可以是不同的pool采樣方式），如LLaVA-OneVision3.Pixel-Shuffle：用通道換空間，如InternVL1.1及后續系列4.Q-former：新增learned query實現視覺token壓縮，如Flamingo、BLIP25.模型動態壓縮：改造模型或注意力機制實現視覺token采樣，如FocusLLaVA、mPlug-owl36.Training-free：在推理的各個階段通過各種方式實現token壓縮，如MustDrop、FiCoCO其中，線性映射、下采樣方法較易理解，不展開贅述Pixel-Shuffle該方案是用通道換空間，即減少空間增加通道，數據維度變化：[N， W， H， C] -> [N， W*s， H*s， C//(s^2)]（當s>1時，則實現上采樣；當s<1時，則實現下采樣）在InternVL1.1，利用此方案，將視覺token從1024壓縮到256個（分辨率448×448，patch_size 14，s=0.5），代碼片段：def pixel_shuffle(self， x， scale_factor=0.5): n， w， h， c = x.size() # N， W， H， C –> N， W， H * scale， C // scale x = x.view(n， w， int(h * scale_factor)， int(c / scale_factor)) # N， W， H * scale， C // scale –> N， H * scale， W， C // scale x = x.permute(0， 2， 1， 3).contiguous() # N， H * scale， W， C // scale –> N， H * scale， W * scale， C // (scale ** 2) x = x.view(n， int(h * scale_factor)， int(w * scale_factor)， int(c / (scale_factor * scale_factor))) if self.ps_version == ‘v1’: warnings.warn(“In ps_version ‘v1’， the height and width have not been swapped back， ” ‘which results in a transposed image.’) else: x = x.permute(0， 2， 1， 3).contiguous() return xQ-Former該類方案是引入可學習的embedding（learned query），和視覺token計算注意力，以實現token壓縮。最早在Flamingo中是Perceiver Resampler，BLIP2中是Q-Former（注意，在視覺token和文本交互時，blip2更簡化直接拼接視覺token和文本token，而flamingo中采用了gated xattn-dense）Flamingo中的Perceiver ResamperBLIP2中的learned queries02模型動態壓縮該方案也是通過改造模型，讓模型在端到端訓練中，自適應抉擇最重要的token，實現視覺token的動態壓縮。（歸類名稱是臨時起的。。應該有更好的代稱）FocusLLaVA1.論文：FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression2.方案：提出vision-guided sampler（下圖b）實現視覺token壓縮（LLM中也提出了text-guided samper，下圖c），其中vision-guided sampler分成兩步：多尺度降采樣：將vit后的全局feature map X再按window切分，對切分后的子特征圖按照不同的max-pool（如4×4，2×2，1×1，類似SPP操作）得到出一組token集合多尺度選擇：引入MoE思想，將不同尺寸的降采樣當做專家模型，對上一步的token集合拉平后計算其和vit后的全局feature map X計算相似度，并保留top的token，即實現token壓縮mPlug-owl31.論文：mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models2.方案：該方案不是直接壓縮token，改造注意力機制為HyperAttnTransformer，視覺和文本共享q矩陣，并各自保留k&v矩陣，實現整個模型參數量降低，提升推理速度Hyper Attention TransformerVLoRA1.論文：Visual Perception by Large Language Model’s Weights2.方案：該方案不直接將視覺token輸入到LLM中，而是通過類似LoRA的方式將Visual token作為參數權重，引入到LLM中VLoRAPerceptual Weights Generator03Training-freeMustDrop1.論文：Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model2.方案：該方案側重在推理時對token進行壓縮，在MLLM推理的各個階段提出相應的壓縮方案Visual-encode stage：計算相鄰token的相似度Prefill stage：dual-attention estimation，先通過global-attention filtering（計算視覺token和所有text token的相似度）過濾出“可能不相關的token集合”，再通過individual-attention filtering（計算視覺token和單個文本token的相似度）過濾出“真正不相關的token集合”Decode stage：output-aware cache策略，在decode時對模型不同層進行不同尺度的剪枝，最后保留最少的token輸出FiCoCO1.論文：Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration2.方案：將token的壓縮方式分解成Filter-Correlate-Compress三個階段，實現training-free的token壓縮框架，并將該框架分別應用于模型的不同部分，即Visual encode階段（即FiCoCo-V）、LLM decode階段（即FiCoCo-L）、visual encode和LLM decode（即FiCoCo-VL），不同部分的實現略有不同。該框架的三個階段具體情況如下：filter階段：解決要丟棄哪些token的問題，通過attention矩陣和cls token計算得到token冗余度，再篩選topKCorrellate階段：解決被丟棄的信息要保留到哪里的問題，通過計算topK token和剩余token的相關性實現Compress階段：解決如何融合token以保留相關信息的問題，通過相關性計算token-wise的壓縮權重實現FiCoCo系列FiCoCo在模型不同部分的偽代碼END點擊下方名片即刻關注我們

閱讀原文