原標題:視覺 LLM 開源的瘋狂月!阿里 Qwen、騰訊混元、谷歌等連續開源重磅模型
文章來源:夕小瑤科技說
內容字數:11205字
2024年12月視覺-語言大模型開源爆發
2024年12月,視覺-語言大模型領域迎來了前所未有的開源熱潮。眾多科技巨頭,包括谷歌、Meta、阿里、騰訊等,紛紛發布了各自的重磅開源模型,標志著多模態AI技術發展進入了一個新的階段。本文將對本月發布的幾個主要開源大模型進行簡要概述,幫助讀者快速了解其核心特點和應用前景。
1. PaliGemma 2: Google的視覺語言模型升級
PaliGemma 2是基于PaLI-3和Gemma 2模型家族開發的新一代視覺語言模型。它支持圖像和文本作為輸入,生成文本輸出,并支持多種語言。該模型提供3種尺寸(3B、10B、28B)的參數版本和3種分辨率(224、448、896)版本,在30多個任務上超越了其前身PaliGemma,尤其是在較大模型尺寸上表現更為突出。 其亮點在于擴展了遷移任務,包括文本檢測與識別、表格結構識別、分子結構識別、光學樂譜識別等,并在許多任務上取得了最先進的結果。此外,PaliGemma 2還針對低精度版本進行了基準測試,使其更易于在CPU設備上部署。
2. InternVL 2.5: OpenGVLab的高性能多模態模型
InternVL 2.5是一個參數規模覆蓋1B到78B的多模態大型語言模型系列。其78B參數版本是首個在MMMU基準測試中準確率超過70%的開源多模態大型語言模型,性能與GPT-4o等領先的閉源商業模型相當。InternVL 2.5在多學科推理、文檔理解、多圖像/視頻理解等方面表現出色,并具有強大的擴展潛力。該模型采用“ViT MLP LLM”范式,并通過動態處理高分辨率多模態數據、單模型訓練步驟和漸進式擴展策略等方法進行訓練。
3. Qwen2-VL: 強大的多模態理解和生成能力
Qwen2-VL-72B是一個預訓練模型,無需指令微調。其亮點在于對各種分辨率和比率的圖像的理解,以及對超過20分鐘視頻的理解能力。它可以用于高質量的視頻問答、對話和內容創作,并支持多種語言。Qwen2-VL采用動態分辨率和多模態旋轉位置嵌入(M-ROPE)等技術,增強了其多模態處理能力,使其能夠與手機、機器人等設備集成。
4. HunyuanVideo: 騰訊的文本生成視頻模型
HunyuanVideo是騰訊開源的文本生成視頻模型,其性能與領先的閉源模型相當,甚至在某些方面超越了它們。該模型擁有130億參數,能夠進行自然和鏡頭切換,在視頻生成效果上表現出色。目前版本分辨率為720P,未來計劃推出更高分辨率版本,并增加圖像生成視頻和視頻自動配樂功能。HunyuanVideo采用統一的圖視頻生成架構、MLLM文本編碼器和3D VAE等技術,實現了高質量的視頻生成。
5. OminiControl: 高效的參考圖像集成框架
OminiControl是一個高效且通用的框架,旨在將參考圖像集成到預訓練的Diffusion Transformer模型中。通過參數重用機制,它僅需增加約0.1%的額外參數就能有效整合參考圖像,并能夠統一處理多種有參考圖像的生成任務,包括主題驅動的生成和空間對齊條件生成。OminiControl通過自生成訓練數據,在主題驅動生成方面表現出色。
總而言之,2024年12月視覺LLM開源大,標志著多模態AI技術發展進入新的階段,這些開源模型的出現將極大推動多模態AI應用的普及和發展,值得期待未來在該領域的更多突破。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:低負擔解碼AI世界,硬核也可愛!聚集35萬AI發燒友、開發者和從業者,廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189