權(quán)重、代碼、數(shù)據(jù)集全開源,性能超越Mistral-7B,蘋果小模型來了

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:權(quán)重、代碼、數(shù)據(jù)集全開源,性能超越Mistral-7B,蘋果小模型來了
關(guān)鍵字:模型,數(shù)據(jù),基準(zhǔn),團(tuán)隊(duì),機(jī)器
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部小模型成趨勢?本周,OpenAI 上線小模型 GPT-4o-mini,小模型賽道正式開卷。近期加入這一賽道的還有蘋果。
最近,蘋果公司作為 DataComp-LM(DCLM)項(xiàng)目的研究機(jī)構(gòu)之一,在 Hugging Face 上發(fā)布了 DCLM-7B 開源模型。該模型性能已經(jīng)超越了 Mistral-7B,并且正在逼近其他領(lǐng)先的開源模型,包括 Llama 3 和 Gemma。論文鏈接:https://arxiv.org/pdf/2406.11794
項(xiàng)目鏈接:https://huggingface.co/apple/DCLM-7B
論文作者之一、蘋果機(jī)器學(xué)習(xí)團(tuán)隊(duì) Vaishaal Shankar 將 DCLM 模型描述為「真正開源的最佳模型」,因?yàn)?DCLM 不僅開源了模型權(quán)重,還開源了訓(xùn)練代碼和預(yù)訓(xùn)練數(shù)據(jù)集。研究介紹
大型語言模型(LLM)目前面臨的一個(gè)評估挑戰(zhàn)是缺乏受控比較。LLM 研究通常會(huì)比較采用不同架構(gòu)、計(jì)算或超參數(shù)的模型,因此難以理清影響語言模型質(zhì)量的因素。
基于此,研究團(tuán)隊(duì)提出了語言模型數(shù)據(jù)比較新基準(zhǔn) ——DCLM,這是語言模型訓(xùn)練數(shù)據(jù)整編(cur
原文鏈接:權(quán)重、代碼、數(shù)據(jù)集全開源,性能超越Mistral-7B,蘋果小模型來了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)