Florence-VL來了！使用生成式視覺編碼器，重新定義多模態大語言模型視覺信息

通過融合不同深度的特征，Florence-VL實現了更全面的視覺理解。

原標題：Florence-VL來了！使用生成式視覺編碼器，重新定義多模態大語言模型視覺信息
文章來源：機器之心
內容字數：5936字

Florence-VL: 基于生成式視覺編碼器的多模態大語言模型

本文介紹了由馬里蘭大學和微軟研究院聯合完成的Florence-VL模型，這是一個基于生成式視覺編碼器Florence-2的多模態大語言模型。Florence-VL克服了傳統視覺編碼器（如CLIP）在細粒度理解和任務泛化能力方面的不足，在多個多模態基準任務上展現出卓越的性能。

1. 問題與解決方案

現有的視覺編碼器如CLIP和SigLIP，雖然在整體語義提取方面表現出色，但存在兩個主要問題：缺乏細粒度理解（忽略像素級和局部區域細節）以及任務泛化能力有限（難以適配OCR、物體定位等任務）。Florence-VL通過引入生成式視覺基礎模型Florence-2，解決了這些問題。Florence-2通過生成式預訓練，將多種視覺任務統一到一個sequence-to-sequence結構中，并通過prompt來完成多樣化的視覺任務。

2. Florence-2: 生成式視覺基礎模型

Florence-2的核心是其生成式預訓練方式。不同于傳統視覺編碼器依賴對比學習，Florence-2采用編碼-解碼框架，包含視覺編碼器DaViT和任務提示機制。通過不同的文本提示，Florence-2可以生成針對性強的視覺特征，從全局語義到局部細節，為多模態任務提供更全面的視覺表示。

3. Florence-VL: 深度與廣度融合策略

Florence-VL的核心創新在于深度-廣度融合(DBFusion)策略。它利用Florence-2的生成式特性，結合多任務提示和多層級特征，形成更豐富的視覺表征。

廣度：通過不同的任務提示（Captioning、OCR、Grounding）擴展視覺表征，獲取不同層次的視覺信息。
深度：整合Florence-2不同深度層捕獲的從low-level到high-level的視覺特征。
融合策略：采用通道拼接(Channel Integration)策略，將不同特征按通道維度拼接，并通過MLP映射到語言模型的輸入空間，高效整合多任務和多層級特征，避免增加訓練和推理時的序列長度。

4. 實驗結果與分析

Florence-VL在多個多模態基準任務上（包括通用視覺問答、OCR、知識理解等）取得了優異的性能。尤其在TextVQA和OCR-Bench等文本提取任務上表現突出，這得益于Florence-2提供的細粒度OCR特征。消融實驗也證明了Florence-2作為視覺編碼器的優越性，其在TextVQA和OCR-Bench等任務中顯著優于LLaVA 1.5。

5. 結論與未來展望

Florence-VL通過基于生成式視覺編碼器Florence-2和創新的深度-廣度融合策略，實現了高效的多模態視覺理解。未來研究將探索自適應融合策略，根據任務動態調整深度與廣度特征的平衡。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # Florence-VL應用 # 多模態信息融合 # 多模態大語言模型視覺理解 # 生成式視覺編碼器 # 視覺信息生成式模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

Florence-VL來了！使用生成式視覺編碼器，重新定義多模態大語言模型視覺信息

通過融合不同深度的特征，Florence-VL實現了更全面的視覺理解。

Florence-VL: 基于生成式視覺編碼器的多模態大語言模型

1. 問題與解決方案

2. Florence-2: 生成式視覺基礎模型

3. Florence-VL: 深度與廣度融合策略

4. 實驗結果與分析

5. 結論與未來展望

聯系作者

下周六上海見！AI Compiler技術沙龍匯集智源、字節、凌川科技等大咖

揭開AI對話的面紗：生數、智譜、宇樹與智源的思想碰撞與共鳴

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點