通過融合不同深度的特征,Florence-VL實現了更全面的視覺理解。
原標題:Florence-VL來了!使用生成式視覺編碼器,重新定義多模態大語言模型視覺信息
文章來源:機器之心
內容字數:5936字
Florence-VL:基于生成式視覺編碼器的多模態大語言模型
近年來,隨著大規模語言模型(LLM)的發展,多模態大語言模型(MLLMs)逐漸成為視覺與語言任務的主流解決方案。為此,馬里蘭大學與微軟研究院聯合提出了Florence-VL,這一模型通過引入生成式視覺編碼器Florence-2,解決了傳統視覺編碼器在細粒度理解和任務泛化能力上的不足。
1. 研究背景
傳統的視覺編碼器如CLIP和SigLIP主要依賴對比學習,雖然在整體語義提取上表現良好,但常常忽略了細節信息。這導致在OCR、對象定位等任務上效果不佳。Florence-VL通過生成式預訓練,整合不同視覺任務,提供更全面的視覺表征。
2. 方:深度與廣度融合(DBFusion)
Florence-VL的核心創新在于深度-廣度融合策略。該策略通過任務提示擴展視覺表征(如圖像描述、OCR、對象定位),并整合多層級特征,確保細節與整體信息的兼顧。通道拼接策略則有效整合不同特征,避免了增加訓練和推理時序列長度的問題。
3. 實驗與結果
研究團隊在多個多模態任務上進行了實驗,包括通用視覺問答、OCR、知識理解等。實驗結果顯示,Florence-VL在TextVQA和OCR-Bench等文本提取任務上表現優異,得益于Florence-2生成式視覺編碼器的支持。此外,在其他任務中,Florence-VL的準確率也相較于傳統方法有所提升。
4. 總結與展望
Florence-VL作為一種基于生成式視覺編碼器的多模態大語言模型,展示了優越的性能。未來的研究將探討自適應融合策略,以便根據任務動態調整深度與廣度特征的平衡,從而進一步提升模型的適應性和表現。
獲取更多信息,請訪問論文鏈接:Florence-VL論文。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺