權(quán)重、代碼、數(shù)據(jù)集全開(kāi)源,性能超越Mistral-7B,蘋(píng)果小模型來(lái)了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:權(quán)重、代碼、數(shù)據(jù)集全開(kāi)源,性能超越Mistral-7B,蘋(píng)果小模型來(lái)了
關(guān)鍵字:模型,數(shù)據(jù),基準(zhǔn),團(tuán)隊(duì),機(jī)器
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部小模型成趨勢(shì)?本周,OpenAI 上線小模型 GPT-4o-mini,小模型賽道正式開(kāi)卷。近期加入這一賽道的還有蘋(píng)果。
最近,蘋(píng)果公司作為 DataComp-LM(DCLM)項(xiàng)目的研究機(jī)構(gòu)之一,在 Hugging Face 上發(fā)布了 DCLM-7B 開(kāi)源模型。該模型性能已經(jīng)超越了 Mistral-7B,并且正在逼近其他領(lǐng)先的開(kāi)源模型,包括 Llama 3 和 Gemma。論文鏈接:https://arxiv.org/pdf/2406.11794
項(xiàng)目鏈接:https://huggingface.co/apple/DCLM-7B
論文作者之一、蘋(píng)果機(jī)器學(xué)習(xí)團(tuán)隊(duì) Vaishaal Shankar 將 DCLM 模型描述為「真正開(kāi)源的最佳模型」,因?yàn)?DCLM 不僅開(kāi)源了模型權(quán)重,還開(kāi)源了訓(xùn)練代碼和預(yù)訓(xùn)練數(shù)據(jù)集。研究介紹
大型語(yǔ)言模型(LLM)目前面臨的一個(gè)評(píng)估挑戰(zhàn)是缺乏受控比較。LLM 研究通常會(huì)比較采用不同架構(gòu)、計(jì)算或超參數(shù)的模型,因此難以理清影響語(yǔ)言模型質(zhì)量的因素。
基于此,研究團(tuán)隊(duì)提出了語(yǔ)言模型數(shù)據(jù)比較新基準(zhǔn) ——DCLM,這是語(yǔ)言模型訓(xùn)練數(shù)據(jù)整編(cur
原文鏈接:權(quán)重、代碼、數(shù)據(jù)集全開(kāi)源,性能超越Mistral-7B,蘋(píng)果小模型來(lái)了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: