PaliGemma 2：DeepMind推出性視覺語言模型，實現跨媒體理解與生成

PaliGemma 2是Google DeepMind推出的最新一代視覺語言模型（VLM），基于Gemma 2語言模型家族，作為PaliGemma的升級版本。它結合了SigLIP-So400m視覺編碼器和不同規模的Gemma 2模型，能夠支持多種分辨率，并通過多階段的訓練過程，展現出廣泛的知識遷移能力。

PaliGemma 2是什么

PaliGemma 2是Google DeepMind基于Gemma 2語言模型家族推出的新一代視覺語言模型（VLM），作為PaliGemma模型的升級版。它結合了SigLIP-So400m視覺編碼器和多種規模的Gemma 2模型，支持多種分辨率，并通過多階段訓練實現廣泛的知識遷移能力。PaliGemma 2在多種學術任務中表現優異，特別是在大型模型與高分辨率配置下的性能顯著提升，同時在OCR、音樂樂譜識別和醫學圖像報告生成等新興領域也取得了顯著突破。

PaliGemma 2：DeepMind推出革命性視覺語言模型，實現跨媒體理解與生成

PaliGemma 2的主要功能

多尺度圖像處理：支持不同分辨率（224px2，448px2，896px2）的圖像輸入，以滿足各種視覺任務的需求。
廣泛的遷移學習：基于微調的預訓練模型，PaliGemma 2能夠遷移到30多個不同的學術任務，包括圖像描述和視覺問答（VQA）等。
多模態任務處理：能夠結合圖像和文本信息，執行如圖像字幕生成和視覺推理等多模態任務。
OCR相關任務：包括表格結構識別、分子結構識別和樂譜識別等功能。
細粒度描述生成：能夠生成內容豐富且包含豐富細節的長圖像描述。
醫學圖像理解：在放射線報告生成等醫學圖像理解任務中表現出色。

PaliGemma 2的技術原理

模型架構：PaliGemma 2基于Gemma 2家族的語言模型，結合SigLIP-So400m視覺編碼器，該視覺編碼器將圖像轉換為嵌入表示，并通過線性投影映射到Gemma 2的輸入空間。
多階段訓練：
- 第一階段：聯合預訓練視覺編碼器和Gemma 2模型，使用大量多模態任務樣本。
- 第二階段：在更高分辨率下進一步訓練，增加高分辨率任務的權重。
- 第三階段：針對特定任務進行微調，以優化模型性能。
自回歸采樣：使用Gemma 2語言模型進行自回歸采樣，從文本提示中生成所需的輸出序列。
參數優化：根據不同模型大小調整學習率，以優化遷移學習的性能。
計算效率：通過優化LLM中的視圖標記來控制計算成本。
量化與CPU推理：支持8位開關浮點量化，使模型能高效地在CPU上運行。