LLM爆發的一周！Apple開源OpenELM（270M、450M、1.1B 和 3B）

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：LLM爆發的一周！Apple開源OpenELM（270M、450M、1.1B 和 3B）
關鍵字：模型,分詞,數據,開發者,參數
文章來源：算法邦
內容字數：2768字

內容摘要：

Apple今天發布并開源OpenELM系列模型（270M、450M、1.1B 和 3B）！還包括了在公開可用數據集上訓練和評估語言模型的完整框架，包括訓練日志、多個checkpoint 和預訓練配置等。OpenELM是一個開源高效語言模型系列，使用分層縮放策略來有效地分配變壓器模型每一層內的參數，從而提高準確性，它基于CoreNet庫預訓練而成，這又是SLM(Small Language Model)端側模型的一個新進展！
OpenELM與公共大型語言模型（LLM）的比較：在公開可用數據集上預訓練的OpenELM在性能上超越了與之規模相當的現有LLM。特別值得注意的是，與最近的開放LLM——OLMo相比，OpenELM在準確率上高出了2.36%，同時所需的預訓練令牌數量減少了一倍。平均準確率是通過對表3b中列出的多個任務計算得出的，這些任務也是OpenLLM排行榜的一部分。用較少數據預訓練的模型以灰色突出顯示。OpenELM模型的技術細節和特點：
模型架構：OpenELM采用的是僅解碼器的transformer模型架構。它遵循最新的大型語言模型（LLM）的設計，包括不使用可學習的偏置參

原文鏈接：LLM爆發的一周！Apple開源OpenELM（270M、450M、1.1B 和 3B）