通過融合不同深度的特征,Florence-VL實現了更全面的視覺理解。
原標題:Florence-VL來了!使用生成式視覺編碼器,重新定義多模態大語言模型視覺信息
文章來源:機器之心
內容字數:5936字
Florence-VL: 基于生成式視覺編碼器的多模態大語言模型
本文介紹了由馬里蘭大學和微軟研究院聯合完成的Florence-VL模型,這是一個基于生成式視覺編碼器Florence-2的多模態大語言模型。Florence-VL克服了傳統視覺編碼器(如CLIP)在細粒度理解和任務泛化能力方面的不足,在多個多模態基準任務上展現出卓越的性能。
1. 問題與解決方案
現有的視覺編碼器如CLIP和SigLIP,雖然在整體語義提取方面表現出色,但存在兩個主要問題:缺乏細粒度理解(忽略像素級和局部區域細節)以及任務泛化能力有限(難以適配OCR、物體定位等任務)。Florence-VL通過引入生成式視覺基礎模型Florence-2,解決了這些問題。Florence-2通過生成式預訓練,將多種視覺任務統一到一個sequence-to-sequence結構中,并通過prompt來完成多樣化的視覺任務。
2. Florence-2: 生成式視覺基礎模型
Florence-2的核心是其生成式預訓練方式。不同于傳統視覺編碼器依賴對比學習,Florence-2采用編碼-解碼框架,包含視覺編碼器DaViT和任務提示機制。通過不同的文本提示,Florence-2可以生成針對性強的視覺特征,從全局語義到局部細節,為多模態任務提供更全面的視覺表示。
3. Florence-VL: 深度與廣度融合策略
Florence-VL的核心創新在于深度-廣度融合(DBFusion)策略。它利用Florence-2的生成式特性,結合多任務提示和多層級特征,形成更豐富的視覺表征。
廣度:通過不同的任務提示(Captioning、OCR、Grounding)擴展視覺表征,獲取不同層次的視覺信息。
深度:整合Florence-2不同深度層捕獲的從low-level到high-level的視覺特征。
融合策略:采用通道拼接(Channel Integration)策略,將不同特征按通道維度拼接,并通過MLP映射到語言模型的輸入空間,高效整合多任務和多層級特征,避免增加訓練和推理時的序列長度。
4. 實驗結果與分析
Florence-VL在多個多模態基準任務上(包括通用視覺問答、OCR、知識理解等)取得了優異的性能。尤其在TextVQA和OCR-Bench等文本提取任務上表現突出,這得益于Florence-2提供的細粒度OCR特征。消融實驗也證明了Florence-2作為視覺編碼器的優越性,其在TextVQA和OCR-Bench等任務中顯著優于LLaVA 1.5。
5. 結論與未來展望
Florence-VL通過基于生成式視覺編碼器Florence-2和創新的深度-廣度融合策略,實現了高效的多模態視覺理解。未來研究將探索自適應融合策略,根據任務動態調整深度與廣度特征的平衡。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺