蘋果終于入局大模型了：300億參數、MoE 架構，手機要迎來全面的大變革了？

AIGC動態(tài)2年前 (2024)發(fā)布 AI前線

AIGC動態(tài)歡迎閱讀

原標題：蘋果終于入局大模型了：300億參數、MoE 架構，手機要迎來全面的大變革了？
關鍵字：解讀,蘋果公司,模型,人工智能,圖像
文章來源：AI前線
內容字數：5399字

內容摘要：

作者 | 李忠良
今天，Apple 公司通過一篇名為《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究論文，正式官宣了其在多模態(tài)大模型（Multimodal Large Language Models，簡稱 MLLMs）領域的研究成果。該研究集中于開發(fā)具有 30B 參數規(guī)模的高性能 MLLMs，論文由多位作者聯合撰寫，已在 arXiv 平臺發(fā)布。
論文鏈接：https://arxiv.org/abs/2403.09611
論文表明，研究團隊通過深入和全面的剖析圖像編碼器、視覺 – 語言連接器以及各種預訓練數據選擇，發(fā)現了幾個關鍵的設計經驗。例如，他們展示了在大規(guī)模多模態(tài)預訓練中使用精心混合的圖像 – 文字對、交錯的圖像 – 文本和純文本數據是實現多個基準測試中最先進（SOTA）的少量樣本結果的關鍵。
此外，他們還展示了圖像編碼器、圖像分辨率和圖像標記數量對性能有重大影響，而視覺 – 語言連接器的設計相對而言影響較小。
通過擴大展示的配方，他們構建了 MM1 系列多模態(tài)模型，包括密集模型和專家混合

原文鏈接：蘋果終于入局大模型了：300億參數、MoE 架構，手機要迎來全面的大變革了？