權重、代碼、數據集全開源，性能超越Mistral-7B，蘋果小模型來了

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：權重、代碼、數據集全開源，性能超越Mistral-7B，蘋果小模型來了
關鍵字：模型,數據,基準,團隊,機器
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
機器之心編輯部小模型成趨勢？本周，OpenAI 上線小模型 GPT-4o-mini，小模型賽道正式開卷。近期加入這一賽道的還有蘋果。
最近，蘋果公司作為 DataComp-LM（DCLM）項目的研究機構之一，在 Hugging Face 上發布了 DCLM-7B 開源模型。該模型性能已經超越了 Mistral-7B，并且正在逼近其他領先的開源模型，包括 Llama 3 和 Gemma。論文鏈接：https://arxiv.org/pdf/2406.11794
項目鏈接：https://huggingface.co/apple/DCLM-7B
論文作者之一、蘋果機器學習團隊 Vaishaal Shankar 將 DCLM 模型描述為「真正開源的最佳模型」，因為 DCLM 不僅開源了模型權重，還開源了訓練代碼和預訓練數據集。研究介紹
大型語言模型（LLM）目前面臨的一個評估挑戰是缺乏受控比較。LLM 研究通常會比較采用不同架構、計算或超參數的模型，因此難以理清影響語言模型質量的因素。
基于此，研究團隊提出了語言模型數據比較新基準 ——DCLM，這是語言模型訓練數據整編（cur

原文鏈接：權重、代碼、數據集全開源，性能超越Mistral-7B，蘋果小模型來了