為清晰理解眾多VLM對視覺輸入的處理方式,整理了幾篇代表性的工作。
原標題:VLM多模態大模型的視覺編碼策略
文章來源:智猩猩GenAI
內容字數:2135字
AI多模態視覺語言模型(VLM)在自動駕駛領域的應用
本文首先介紹了即將在北京舉辦的第四屆全球自動駕駛峰會,峰會將涵蓋自動駕駛的多個前沿領域,包括視覺語言模型等技術研討會。隨后,文章重點關注了視覺語言模型(VLM)在圖像處理方面的最新進展,并對幾篇代表性論文進行了總結和分析。
1. 視覺語言模型(VLM)概述
視覺語言模型 (VLM) 旨在融合視覺和語言信息,實現更高級別的多模態理解和生成能力。其核心在于高效的視覺編碼器,負責提取圖像中不同尺寸的視覺特征。本文著重分析了不同VLM在視覺編碼器設計上的差異。
2. 不同VLM視覺編碼器的比較
文章對六種代表性VLM的視覺編碼器進行了比較,總結如下:
- InternVL: 使用大型視覺基礎模型InternViT-6B (基于原始ViT架構),并通過一個8B的LLM進行微調。
- LLaVA-OneVision: 采用AnyRes技術,支持任意尺寸高分辨率圖像處理。對單圖進行網格裁剪處理,多圖或視頻則逐圖處理。實驗表明,提高分辨率比增加token數量更有效。
- Long Context Transfer from Language to Vision: 提出UniRes技術,相比AnyRes,去除了全圖縮略圖,對每個網格進行2×2池化。
- Pixtral: 隨機初始化訓練Pixtral-Vit,支持各種分辨率,并加入行結束標記token和門控機制。利用相對旋轉位置編碼(RoPE-2D)處理不同尺寸圖像。
- Qwen2-VL: 類似Pixtral,采用2D-RoPE,并提出M-RoPE統一編碼圖像、視頻和文本位置信息。
- Idefics2: 使用NaVit視覺編碼器,支持動態分辨率,無需圖像分割,通過將不同圖像序列打包成一個長序列,并限制自注意力機制在當前圖像序列內應用來處理不同尺寸的圖像。
3. 視覺編碼器技術的演進趨勢
從上述VLM的視覺編碼器設計可以看出,研究者們不斷探索更高效、更靈活的方案,以應對不同分辨率、不同類型(單圖、多圖、視頻)的視覺輸入。 AnyRes和UniRes等技術旨在高效處理高分辨率圖像,而RoPE-2D和M-RoPE等位置編碼技術則提升了模型對不同尺寸圖像的適應性。動態分辨率處理能力也成為一個重要的發展方向。
4. VLM在自動駕駛中的應用前景
VLM技術在自動駕駛領域具有巨大的應用潛力。通過對道路場景圖像和文本信息的理解,VLM可以輔助自動駕駛系統進行更準確的環境感知、決策規劃和人機交互。例如,VLM可以用于理解交通標志、路牌等信息,以及對復雜路況進行語義理解,從而提升自動駕駛系統的安全性與可靠性。
總而言之,VLM技術的快速發展為自動駕駛系統帶來了新的機遇,其在視覺感知、決策規劃等方面的應用值得期待。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...