蘋果一次性開源了8個大模型! 包含模型權(quán)重、訓(xùn)練日志和設(shè)置,OpenELM全面開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:蘋果一次性開源了8個大模型! 包含模型權(quán)重、訓(xùn)練日志和設(shè)置,OpenELM全面開源
關(guān)鍵字:模型,參數(shù),維度,指令,研究人員
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):6074字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 任同學(xué)不以開放性著稱的蘋果居然同時開源了大模型的權(quán)重、訓(xùn)練和評估框架,涵蓋訓(xùn)練日志、多個保存點和預(yù)訓(xùn)練設(shè)置。同時升級計算機(jī)視覺工具包 CVNets 為 CoreNet!支持 OpenELM!
▲圖1.由Stable Diffusion3生成。OpenELM是Apple蘋果公司最新推出的語言模型系列,這次一共開源了8個模型,包括OpenELM-270M、OpenELM450M、OpenELM-1_1B和OpenELM-3B的預(yù)訓(xùn)練版和指令微調(diào)版。
▲圖2.OpenELM 采用了decoder-only的架構(gòu),并遵循最新的大語言模型(LLM)的設(shè)計,包括:
在任何全連接層中不使用可學(xué)習(xí)的偏置參數(shù),
使用RMSNorm進(jìn)行預(yù)歸一化,同時使用旋轉(zhuǎn)位置嵌入(ROPE)來編碼位置信息,
使用分組查詢注意力(GQA)代替多頭注意力(MHA),
將前饋網(wǎng)絡(luò)(FFN)替換為SwiGLU FFN,
使用Flash Attention來計算縮放點積注意力,
使用與LLama相同的分詞器。
▲圖3.OpenELM與開源LLM。OpenELM比最近的開放LLM OLMo的性能高出2.
原文鏈接:蘋果一次性開源了8個大模型! 包含模型權(quán)重、訓(xùn)練日志和設(shè)置,OpenELM全面開源
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189