Ovis2

Ovis2 – 阿里國際推出的多模態大語言系列模型

Ovis2 是阿里巴巴國際團隊最新推出的多模態大型語言模型，旨在通過結構化嵌入對齊技術有效解決視覺與文本之間的差異。Ovis2 在前一代 Ovis 模型的基礎上進行了優化，增強了小規模模型的性能密度，并通過指令微調和偏好學習顯著提升了思維鏈（CoT）推理能力。

Ovis2是什么

Ovis2 是阿里巴巴國際團隊研發的新一代多模態大型語言模型。它采用結構化嵌入對齊的方法，有效解決了視覺和文本模態之間的差異，并在 Ovis 系列架構的基礎上進行了強化，特別提升了小規模模型在能力密度方面的表現。Ovis2 具備指令微調和偏好學習的特性，從而顯著提升了思維鏈（CoT）推理能力。此外，Ovis2 還引入了視頻處理和多圖像處理能力，增強了對多語言的支持以及在復雜場景下的光學字符識別（OCR）能力。該系列模型分為六個不同的參數規模，包括1B、2B、4B、8B、16B 和 34B，均在 OpenCompass 多模態評測中表現優異，特別是在數學推理和視頻理解方面。Ovis2 的開源為多模態大模型的研究和應用開辟了新的方向和工具。

Ovis2

Ovis2的主要功能

多模態理解與生成：能夠處理文本、圖像和視頻等多種輸入模態，生成高質量的文本輸出，支持在復雜場景中的視覺和語言任務。
推理能力增強：借助思維鏈（CoT）推理能力的提升，解決復雜的邏輯和數學問題，并提供逐步推理的解決方案。
視頻與多圖像處理：具備視頻理解能力，能夠選擇關鍵幀并處理多圖像輸入，從而應對跨幀的復雜視覺信息。
多語言支持及OCR功能：支持多種語言的文本處理，可以從復雜的視覺元素（如表格和圖表）中提取結構化數據。
小模型優化：通過優化訓練策略，使小規模模型具備更高的能力密度，以滿足多樣化的應用需求。

Ovis2的技術原理

結構化嵌入對齊：利用視覺tokenizer將圖像切割成若干圖像塊（patch），提取特征后將其映射為“視覺單詞”，進而形成概率化的視覺token。視覺token與文本token共同輸入到大語言模型（LLM），實現模態間的結構化對齊。
四階段訓練策略：
- 第一階段：凍結大語言模型，專注于視覺模塊的訓練，以學習視覺特征與嵌入之間的轉化。
- 第二階段：進一步訓練視覺模塊，增強其對高分辨率圖像的理解及多語言OCR能力。
- 第三階段：使用對話形式的視覺數據，使視覺嵌入與大語言模型的對話格式對齊。
- 第四階段：進行多模態指令訓練和偏好學習，提升模型對用戶指令的遵循能力及輸出質量。
視頻理解提升：利用MDP3算法（基于幀與文本的相關性、組合多樣性和序列性）進行關鍵幀選擇，從而提升視頻理解的效果。
基于Transformer架構：結合強大的視覺編碼器（如ViT）和語言模型（如Qwen），實現高效的多模態融合與生成。