
AIGC動態歡迎閱讀
原標題:蘋果卷開源大模型,公開代碼、權重、數據集、訓練全過程,OpenELM亮相
關鍵字:參數,蘋果,研究者,模型,準確率
文章來源:機器之心
內容字數:5794字
內容摘要:
機器之心報道
編輯:陳萍、大盤雞蘋果發布基于開源訓練和推理框架的高效語言模型族 OpenELM。要說 ChatGPT 拉開了大模型競賽的序幕,那么 Meta 開源 Llama 系列模型則掀起了開源領域的熱潮。在這當中,蘋果似乎掀起的水花不是很大。
不過,蘋果最新放出的論文,我們看到其在開源領域做出的貢獻。
近日,蘋果發布了 OpenELM,共四種變體(參數量分別為 270M、450M、1.1B 和 3B),這是一系列基于公開數據集進行預訓練和微調的模型。OpenELM 的核心在于逐層縮放,即 OpenELM 中的每個 Transformer 層都有不同的配置(例如,頭數和前饋網絡維度),導致模型每層的參數數量不同,從而實現了更有效的跨層參數分配。
值得一提的是,蘋果這次發布了完整的框架,包括數據準備、訓練、微調和評估程序,以及多個預訓練的 checkpoint 和訓練日志,以促進開源研究。論文地址:https://arxiv.org/pdf/2404.14619.pdf
項目地址:https://github.com/apple/corenet
論文標題:OpenELM: An Eff
原文鏈接:蘋果卷開源大模型,公開代碼、權重、數據集、訓練全過程,OpenELM亮相
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號