LLaVA-Mini來了！每張圖像所需視覺token壓縮至1個，兼顧效率內存

高效多模態大模型。

原標題：LLaVA-Mini來了！每張圖像所需視覺token壓縮至1個，兼顧效率內存
文章來源：機器之心
內容字數：6071字

高效多模態大模型LLaVA-Mini：用一個視覺Token征服圖像和視頻

本文介紹了中國科學院計算技術研究所自然語言處理團隊提出的高效多模態大模型LLaVA-Mini。該模型通過創新性的視覺Token壓縮技術，將每張圖像所需的視覺Token數量壓縮至1個，在保證視覺理解能力的同時，顯著提升了圖像和視頻理解的效率。

1. 挑戰與突破：高效LMMs的核心問題

以GPT-4o為代表的實時交互多模態大模型(LMMs)備受關注，但現有模型依賴大量視覺Token，導致計算復雜度高、推理延遲大。LLaVA-Mini正是在此背景下，致力于解決LMMs的效率問題，實現低延遲實時交互。

2. 視覺Token的理解與壓縮策略

研究者通過分析LLaVA架構，特別是注意力機制，發現視覺Token主要在前幾層發揮作用，后續層主要依賴融合了視覺信息的指令Token。基于此，LLaVA-Mini提出了一種基于查詢的壓縮模塊，通過可學習的壓縮查詢選擇性提取關鍵視覺信息，最終將一張圖像壓縮為一個視覺Token。

3. 模態預融合模塊：保留視覺信息的關鍵

為了避免視覺信息丟失，LLaVA-Mini在LLM底座前引入模態預融合模塊。該模塊預先將所有視覺Token的信息融合到文本Token中，確保視覺理解能力，并將輸入LLM底座的Token數量從“576個視覺Token+N個文本Token”壓縮至“1個視覺Token+N個模態融合Token”。

4. 顯著的性能提升與效率優勢

實驗結果表明，LLaVA-Mini在11個圖像理解基準和7個視頻理解基準上取得了與現有模型相當甚至更好的性能，同時實現了顯著的效率提升：計算負載減少77%，響應延遲低于40毫秒，顯存占用從360MB/圖像降至0.6MB/圖像，支持在24GB GPU上進行長達3小時的視頻處理。LLaVA-Mini甚至在長視頻理解任務中表現出顯著優勢，能夠處理超過2小時的視頻。