蘋果多模態模型大升級！文本密集、多圖理解，全能小鋼炮

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：蘋果多模態模型大升級！文本密集、多圖理解，全能小鋼炮
關鍵字：數據,模型,圖像,作者,文本
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：alan
【新智元導讀】近日，一向畫風精致的「蘋果牌AI」，也推出了升級版的多模態大模型，從1B到30B參數，涵蓋密集和專家混合模型，密集文本、多圖理解，多項能力大提升。多模態大語言模型（MLLM）如今已是大勢所趨。
過去的一年中，閉源陣營的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引領了時代。
而開源MLLM也同樣在蓬勃發展，LLaVA系列，InternVL2，Cambrian-1和Qwen2-VL的強勁表現，讓作為老大哥的GPT-4o時常躺槍。
開源與閉源之間差距縮小，兼具單圖、多圖、視頻理解能力的MLLM也成為大家研究的重點。
說到潮流，怎么能沒有蘋果的一席之地？
近日，一向畫風精致的「蘋果牌AI」，也推出了升級版的多模態大模型——MM1.5。
論文地址：https://arxiv.org/pdf/2409.20566
MM1.5以前代MM1模型為基礎，采用數據為中心的方法進行訓練，顯著增強了文本密集型圖像理解、視覺指代和定位、以及多圖像推理的能力。
MM1.5系列的參數量從1B到30B，涵蓋密集和專家混合（MoE）模型，即使較

原文鏈接：蘋果多模態模型大升級！文本密集、多圖理解，全能小鋼炮