FastVLM

FastVLM – 蘋果推出的高效視覺語言模型

FastVLM

FastVLM是什么

FastVLM是蘋果公司推出的先進視覺語言模型（VLM），旨在提高高分辨率圖像處理的效率和性能。該模型采用了FastViTHD這一新型混合視覺編碼器，能夠有效減少視覺token的數量，從而顯著縮短編碼時間。在保持與現有視覺語言模型相似的性能水平的同時，FastVLM顯著提升了處理速度。例如，在LLaVA-1.5的測試環境中，首次生成token的時間（TTFT）比其他模型縮短了3.2倍。FastVLM在多個VLM基準測試中表現優異，同時具有更小的模型體積和更低的訓練數據需求，展現出在多模態理解任務中的高效性和實用性。

FastVLM的主要功能

高效編碼高分辨率圖像：快速將高分辨率圖像轉換為視覺token，顯著減少編碼時間和token數量。
增強VLM性能：在大幅縮短首次token生成時間的同時，保持與現有先進模型相似的性能表現。
簡化模型設計：無需額外的token修剪步驟，從而簡化視覺編碼器的設計流程。

FastVLM的技術原理

混合視覺編碼器FastViTHD：FastViTHD是FastVLM的核心組成部分。它結合了卷積層與Transformer塊的優勢，相較于傳統的純卷積或純Transformer編碼器（如ViT），能夠更有效地處理高分辨率圖像，通過下采樣操作減少token數量。Transformer塊則進一步提取高質量的視覺特征，為大語言模型（LLM）提供更準確的視覺信息。FastViTHD架構包括多個階段，每個階段都有特定的深度和嵌入維度，深度設置為[2，12，24，4，2]，嵌入維度為[96，192，384，768，1536]。
優化的架構設計：FastVLM在架構設計上進行了優化，以實現高效的高分辨率圖像處理。與簡單地擴展FastViT架構不同，FastVLM引入了一個額外階段，在自注意力層之前進行下采樣處理。自注意力層僅需處理已經下采樣的張量，從而減少計算量。例如，在典型的混合模型中，自注意力層處理的張量在每個方向上被下采樣16倍，而在FastVLM中，最寬的多層感知器（MLP）層處理的輸入張量在每個方向上被下采樣64倍，顯著降低了視覺編碼的延遲。
與LLM的協同工作：FastVLM通過連接器模塊將視覺編碼器與大語言模型（LLM）相連。視覺編碼器輸出的視覺token經過連接器模塊轉換為適合LLM處理的格式，使得LLM能夠結合視覺token和文本輸入進行有效的理解，生成相應的輸出。這種協同工作方式使得視覺信息能夠有效融入語言生成過程中，充分發揮視覺語言模型的功能。