微軟和馬里蘭大學共同開源的多模態大語言模型

產品名稱：Florence-VL
產品簡介：Florence-VL是創新的多模態大型語言模型（MLLMs），是馬里蘭大學和微軟研究院共同推出的。Florence-VL用生成式視覺基礎模型Florence-2豐富視覺表示，能捕捉圖像的不同層次和方面的視覺特征，適應多樣的下游任務。
詳細介紹：

Florence-VL是什么

Florence-VL是創新的多模態大型語言模型（MLLMs），是馬里蘭大學和微軟研究院共同推出的。Florence-VL用生成式視覺基礎模型Florence-2豐富視覺表示，能捕捉圖像的不同層次和方面的視覺特征，適應多樣的下游任務。Florence-VL引進深度-廣度融合（DBFusion）技術，將不同深度和多個提示下提取的視覺特征，實現視覺與語言理解的深度融合。

Florence-VL的主要功能

多模態理解：Florence-VL能理解和處理圖像與文本數據，實現視覺與語言的深度融合。
視覺特征提取：用Florence-2模型，從圖像中提取豐富的視覺特征。
深度-廣度融合（DBFusion）：結合不同層次（深度）和不同任務提示（廣度）的視覺特征，適應多種下游任務。
性能提升：在多個多模態和視覺中心的基準測試中實現性能提升，包括VQA、OCR、圖像描述等。

Florence-VL的技術原理

生成式視覺編碼器：用Florence-2作為視覺編碼器，基于不同的任務提示生成視覺特征，適用于多種視覺任務。
特征融合架構：引進新穎的特征融合架構，將從Florence-2提取的視覺特征與預訓練的語言模型相結合。
深度-廣度融合（DBFusion）：
- 深度：整合來自不同層次的視覺特征，捕捉從低級到高級的概念細節。
- 廣度：用多個任務特定的視覺特征，每個特征強調輸入圖像中的不同感知信息。
端到端預訓練：整個模型進行端到端預訓練，實現視覺和語言模態之間的最佳對齊。
微調：在預訓練后，對投影層和語言模型進行微調，適應特定的下游任務。