蘋果卷開源大模型，公開代碼、權重、數據集、訓練全過程，OpenELM亮相

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：蘋果卷開源大模型，公開代碼、權重、數據集、訓練全過程，OpenELM亮相
關鍵字：參數,蘋果,研究者,模型,準確率
文章來源：機器之心
內容字數：5794字

內容摘要：

機器之心報道
編輯：陳萍、大盤雞蘋果發布基于開源訓練和推理框架的高效語言模型族 OpenELM。要說 ChatGPT 拉開了大模型競賽的序幕，那么 Meta 開源 Llama 系列模型則掀起了開源領域的熱潮。在這當中，蘋果似乎掀起的水花不是很大。
不過，蘋果最新放出的論文，我們看到其在開源領域做出的貢獻。
近日，蘋果發布了 OpenELM，共四種變體（參數量分別為 270M、450M、1.1B 和 3B），這是一系列基于公開數據集進行預訓練和微調的模型。OpenELM 的核心在于逐層縮放，即 OpenELM 中的每個 Transformer 層都有不同的配置（例如，頭數和前饋網絡維度），導致模型每層的參數數量不同，從而實現了更有效的跨層參數分配。
值得一提的是，蘋果這次發布了完整的框架，包括數據準備、訓練、微調和評估程序，以及多個預訓練的 checkpoint 和訓練日志，以促進開源研究。論文地址：https://arxiv.org/pdf/2404.14619.pdf
項目地址：https://github.com/apple/corenet
論文標題：OpenELM: An Eff

原文鏈接：蘋果卷開源大模型，公開代碼、權重、數據集、訓練全過程，OpenELM亮相