斯坦福/蘋果等23所機構發布DCLM基準測試,高質量數據集能否撼動Scaling Laws?基礎模型與Llama3 8B表現相當
AIGC動態歡迎閱讀
原標題:斯坦福/蘋果等23所機構發布DCLM基準測試,高質量數據集能否撼動Scaling Laws?基礎模型與Llama3 8B表現相當
關鍵字:模型,數據,研究人員,解讀,規模
文章來源:HyperAI超神經
內容字數:0字
內容摘要:
作者:李姝
編輯:李寶珠,三羊
華盛頓大學、斯坦福大學、蘋果等 23 所機構最新研究成果發布:DCLM 基準測試可生成高質量數據集,實現了從 412M 到 7B 不同參數模型參數規模上的試驗數據管理策略,基礎模型與 Llama 3 8B 表現相當。人們對 AI 模型的關注高熱不下,關于 Scaling Laws 的爭論也愈發熱烈。
OpenAI 于 2020 年在論文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws,它被看作是大語言模型的摩爾定律。其釋義可簡要總結為:隨著模型大小、數據集大小、(用于訓練的)計算浮點數的增加,模型的性能會提高。
在 Scaling Laws 的影響下,不少追隨者始終認為「大」依然是提高模型性能的第一性原理。尤其是「財大氣粗」的大廠,更加依賴于大型、多樣化的語料數據集。
對此,清華大學計算機系博士秦禹嘉指出,「LLaMA 3 告訴大家一個悲觀的現實:模型架構不用動,把數據量從 2T 加到 15T 就可以暴力出奇跡。這一方面告訴大家基座模型長期來看就是大廠的機會;另一方面,考慮到 Scal
原文鏈接:斯坦福/蘋果等23所機構發布DCLM基準測試,高質量數據集能否撼動Scaling Laws?基礎模型與Llama3 8B表現相當
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...