斯坦福/蘋果等23所機構(gòu)發(fā)布DCLM基準測試,高質(zhì)量數(shù)據(jù)集能否撼動Scaling Laws?基礎(chǔ)模型與Llama3 8B表現(xiàn)相當

AIGC動態(tài)歡迎閱讀
原標題:斯坦福/蘋果等23所機構(gòu)發(fā)布DCLM基準測試,高質(zhì)量數(shù)據(jù)集能否撼動Scaling Laws?基礎(chǔ)模型與Llama3 8B表現(xiàn)相當
關(guān)鍵字:模型,數(shù)據(jù),研究人員,解讀,規(guī)模
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):0字
內(nèi)容摘要:
作者:李姝
編輯:李寶珠,三羊
華盛頓大學、斯坦福大學、蘋果等 23 所機構(gòu)最新研究成果發(fā)布:DCLM 基準測試可生成高質(zhì)量數(shù)據(jù)集,實現(xiàn)了從 412M 到 7B 不同參數(shù)模型參數(shù)規(guī)模上的試驗數(shù)據(jù)管理策略,基礎(chǔ)模型與 Llama 3 8B 表現(xiàn)相當。人們對 AI 模型的關(guān)注高熱不下,關(guān)于 Scaling Laws 的爭論也愈發(fā)熱烈。
OpenAI 于 2020 年在論文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws,它被看作是大語言模型的摩爾定律。其釋義可簡要總結(jié)為:隨著模型大小、數(shù)據(jù)集大小、(用于訓練的)計算浮點數(shù)的增加,模型的性能會提高。
在 Scaling Laws 的影響下,不少追隨者始終認為「大」依然是提高模型性能的第一性原理。尤其是「財大氣粗」的大廠,更加依賴于大型、多樣化的語料數(shù)據(jù)集。
對此,清華大學計算機系博士秦禹嘉指出,「LLaMA 3 告訴大家一個悲觀的現(xiàn)實:模型架構(gòu)不用動,把數(shù)據(jù)量從 2T 加到 15T 就可以暴力出奇跡。這一方面告訴大家基座模型長期來看就是大廠的機會;另一方面,考慮到 Scal
原文鏈接:斯坦福/蘋果等23所機構(gòu)發(fā)布DCLM基準測試,高質(zhì)量數(shù)據(jù)集能否撼動Scaling Laws?基礎(chǔ)模型與Llama3 8B表現(xiàn)相當
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號