PaliGemma 2 mix

PaliGemma 2 mix – 谷歌DeepMind推出的升級版視覺語言模型

PaliGemma 2 Mix是什么

PaliGemma 2 Mix是谷歌DeepMind推出的一款先進的多任務視覺語言模型（VLM），它匯集了多種視覺和語言處理功能。該模型不僅支持圖像描述、目標檢測、圖像分割，還具備光學字符識別（OCR）和文檔理解等能力，使得用戶能夠在一個統(tǒng)一的模型中靈活應對不同的任務需求。PaliGemma 2 Mix提供三種參數(shù)規(guī)模（3B、10B、28B），適應各種應用場景，并支持224px和448px兩種圖像分辨率，以兼顧性能與資源的有效利用。該模型基于開源框架（如Hugging Face Transformers、Keras、PyTorch等）開發(fā)，便于使用和擴展，開發(fā)者只需簡單提示即可切換任務，無需加載額外模型。

PaliGemma 2 mix

PaliGemma 2 Mix的主要功能

圖像描述：生成準確且詳盡的圖像描述，支持多種文本長度的描述形式。
光學字符識別（OCR）：能夠識別圖像中的文字內容，非常適合文檔數(shù)字化、歷史文獻存檔以及自動數(shù)據(jù)提取。
目標檢測與圖像分割：具備檢測并定位圖像中物體的能力，同時進行精確的語義分割。
視覺問答（VQA）：用戶可上傳圖片并提出問題，模型將分析圖片并給出相應答案。
文檔理解：深入理解和分析文檔圖像的內容，支持對圖表和圖解的分析。
科學問題解答：能夠理解并解答復雜的科學問題，適用于教育和研究領域。
文本相關任務：涵蓋文本檢測、表格結構識別、分子結構識別等多種任務。

PaliGemma 2 Mix的技術原理

模型架構：該模型由三個核心組成部分構成：
- SigLIP 圖像編碼器：采用 SigLIP-So400m 作為圖像編碼器，通過對比預訓練的方法將圖像轉化為一系列token。編碼器支持多種輸入分辨率（如224px2、448px2和896px2），分別生成256、1024和4096個token。
- Gemma-2B 語言模型：作為解碼器，負責處理文本輸入并生成輸出。模型通過SentencePiece分詞器將文本轉化為token，并與圖像token相結合。
- 線性投影層：將SigLIP輸出的圖像token投影到與Gemma-2B詞匯token相同的維度，從而實現(xiàn)有效融合。
訓練策略：PaliGemma 2 Mix的訓練分為三個階段：
- 階段 1：基礎多模態(tài)任務訓練：將預訓練的SigLIP和Gemma-2B結合，在包含10億樣本的多模態(tài)任務混合數(shù)據(jù)集上進行聯(lián)合訓練，旨在提升模型在多任務中的遷移能力，訓練分辨率為224px2。
- 階段 2：逐步提高分辨率的訓練：在448px2和896px2的分辨率下分別訓練5000萬和1000萬樣本，增加了高分辨率任務的權重，延長了輸出序列長度，以支持復雜任務（如長文本OCR）。
- 階段 3：微調到具體任務：對階段1或階段2的檢查點進行微調，以適應特定任務，如視覺問答（VQA）、文檔理解和長篇描述生成等。
多模態(tài)融合：PaliGemma 2 Mix通過將圖像token和文本token結合，輸入到語言模型中進行自回歸生成。圖像token能夠“前瞻”任務提示（前綴），更新其表示，以適應當前任務。