AIGC動態歡迎閱讀
原標題:LLM爆發的一周!Apple開源OpenELM(270M、450M、1.1B 和 3B)
關鍵字:模型,分詞,數據,開發者,參數
文章來源:算法邦
內容字數:2768字
內容摘要:
Apple今天發布并開源OpenELM系列模型(270M、450M、1.1B 和 3B)!還包括了在公開可用數據集上訓練和評估語言模型的完整框架,包括訓練日志、多個checkpoint 和預訓練配置等。OpenELM是一個開源高效語言模型系列,使用分層縮放策略來有效地分配變壓器模型每一層內的參數,從而提高準確性,它基于CoreNet庫預訓練而成,這又是SLM(Small Language Model)端側模型的一個新進展!
OpenELM與公共大型語言模型(LLM)的比較:在公開可用數據集上預訓練的OpenELM在性能上超越了與之規模相當的現有LLM。特別值得注意的是,與最近的開放LLM——OLMo相比,OpenELM在準確率上高出了2.36%,同時所需的預訓練令牌數量減少了一倍。平均準確率是通過對表3b中列出的多個任務計算得出的,這些任務也是OpenLLM排行榜的一部分。用較少數據預訓練的模型以灰色突出顯示。OpenELM模型的技術細節和特點:
模型架構:OpenELM采用的是僅解碼器的transformer模型架構。它遵循最新的大型語言模型(LLM)的設計,包括不使用可學習的偏置參
原文鏈接:LLM爆發的一周!Apple開源OpenELM(270M、450M、1.1B 和 3B)
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...