AIGC動態歡迎閱讀
原標題:蘋果多模態模型大升級!文本密集、多圖理解,全能小鋼炮
關鍵字:數據,模型,圖像,作者,文本
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:alan
【新智元導讀】近日,一向畫風精致的「蘋果牌AI」,也推出了升級版的多模態大模型,從1B到30B參數,涵蓋密集和專家混合模型,密集文本、多圖理解,多項能力大提升。多模態大語言模型(MLLM)如今已是大勢所趨。
過去的一年中,閉源陣營的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引領了時代。
而開源MLLM也同樣在蓬勃發展,LLaVA系列,InternVL2,Cambrian-1和Qwen2-VL的強勁表現,讓作為老大哥的GPT-4o時常躺槍。
開源與閉源之間差距縮小,兼具單圖、多圖、視頻理解能力的MLLM也成為大家研究的重點。
說到潮流,怎么能沒有蘋果的一席之地?
近日,一向畫風精致的「蘋果牌AI」,也推出了升級版的多模態大模型——MM1.5。
論文地址:https://arxiv.org/pdf/2409.20566
MM1.5以前代MM1模型為基礎,采用數據為中心的方法進行訓練,顯著增強了文本密集型圖像理解、視覺指代和定位、以及多圖像推理的能力。
MM1.5系列的參數量從1B到30B,涵蓋密集和專家混合(MoE)模型,即使較
原文鏈接:蘋果多模態模型大升級!文本密集、多圖理解,全能小鋼炮
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...