視覺 LLM 開源的瘋狂月！阿里 Qwen、騰訊混元、谷歌等連續開源重磅模型

AIGC動態5個月前發布夕小瑤科技說

402 0 0

原標題：視覺 LLM 開源的瘋狂月！阿里 Qwen、騰訊混元、谷歌等連續開源重磅模型
文章來源：夕小瑤科技說
內容字數：11205字

2024年12月視覺-語言大模型開源爆發

2024年12月，視覺-語言大模型領域迎來了前所未有的開源熱潮。眾多科技巨頭，包括谷歌、Meta、阿里、騰訊等，紛紛發布了各自的重磅開源模型，標志著多模態AI技術發展進入了一個新的階段。本文將對本月發布的幾個主要開源大模型進行簡要概述，幫助讀者快速了解其核心特點和應用前景。

1. PaliGemma 2: Google的視覺語言模型升級

PaliGemma 2是基于PaLI-3和Gemma 2模型家族開發的新一代視覺語言模型。它支持圖像和文本作為輸入，生成文本輸出，并支持多種語言。該模型提供3種尺寸（3B、10B、28B）的參數版本和3種分辨率（224、448、896）版本，在30多個任務上超越了其前身PaliGemma，尤其是在較大模型尺寸上表現更為突出。其亮點在于擴展了遷移任務，包括文本檢測與識別、表格結構識別、分子結構識別、光學樂譜識別等，并在許多任務上取得了最先進的結果。此外，PaliGemma 2還針對低精度版本進行了基準測試，使其更易于在CPU設備上部署。

2. InternVL 2.5: OpenGVLab的高性能多模態模型

InternVL 2.5是一個參數規模覆蓋1B到78B的多模態大型語言模型系列。其78B參數版本是首個在MMMU基準測試中準確率超過70%的開源多模態大型語言模型，性能與GPT-4o等領先的閉源商業模型相當。InternVL 2.5在多學科推理、文檔理解、多圖像/視頻理解等方面表現出色，并具有強大的擴展潛力。該模型采用“ViT MLP LLM”范式，并通過動態處理高分辨率多模態數據、單模型訓練步驟和漸進式擴展策略等方法進行訓練。

3. Qwen2-VL: 強大的多模態理解和生成能力

Qwen2-VL-72B是一個預訓練模型，無需指令微調。其亮點在于對各種分辨率和比率的圖像的理解，以及對超過20分鐘視頻的理解能力。它可以用于高質量的視頻問答、對話和內容創作，并支持多種語言。Qwen2-VL采用動態分辨率和多模態旋轉位置嵌入（M-ROPE）等技術，增強了其多模態處理能力，使其能夠與手機、機器人等設備集成。

4. HunyuanVideo: 騰訊的文本生成視頻模型

HunyuanVideo是騰訊開源的文本生成視頻模型，其性能與領先的閉源模型相當，甚至在某些方面超越了它們。該模型擁有130億參數，能夠進行自然和鏡頭切換，在視頻生成效果上表現出色。目前版本分辨率為720P，未來計劃推出更高分辨率版本，并增加圖像生成視頻和視頻自動配樂功能。HunyuanVideo采用統一的圖視頻生成架構、MLLM文本編碼器和3D VAE等技術，實現了高質量的視頻生成。

5. OminiControl: 高效的參考圖像集成框架

OminiControl是一個高效且通用的框架，旨在將參考圖像集成到預訓練的Diffusion Transformer模型中。通過參數重用機制，它僅需增加約0.1%的額外參數就能有效整合參考圖像，并能夠統一處理多種有參考圖像的生成任務，包括主題驅動的生成和空間對齊條件生成。OminiControl通過自生成訓練數據，在主題驅動生成方面表現出色。

總而言之，2024年12月視覺LLM開源大，標志著多模態AI技術發展進入新的階段，這些開源模型的出現將極大推動多模態AI應用的普及和發展，值得期待未來在該領域的更多突破。