FineWeb技術(shù)報(bào)告出爐!揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集
AIGC動態(tài)歡迎閱讀
原標(biāo)題:FineWeb技術(shù)報(bào)告出爐!揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集
關(guān)鍵字:報(bào)告,數(shù)據(jù),模型,研究者,性能
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:Mindy
【新智元導(dǎo)讀】從大規(guī)模網(wǎng)絡(luò)爬取、精細(xì)過濾到去重技術(shù),通過FineWeb的技術(shù)報(bào)告探索如何打造高質(zhì)量數(shù)據(jù)集,為大型語言模型(LLM)預(yù)訓(xùn)練提供更優(yōu)質(zhì)的性能。大型語言模型(LLMs)的性能在很大程度上取決于它的預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和大小。
然而,像Llama 3和Mixtral這樣最先進(jìn)的LLMs的預(yù)訓(xùn)練數(shù)據(jù)集并不公開;關(guān)于它們是如何創(chuàng)建的,我們知之甚少。
近日,Hugging Face上的一個(gè)團(tuán)隊(duì)發(fā)布了FineWeb數(shù)據(jù)集,這是一個(gè)用于LLM預(yù)訓(xùn)練的新型大規(guī)模(15萬億個(gè)tokens,44TB磁盤空間)數(shù)據(jù)集。
同時(shí),他們還通過技術(shù)報(bào)告詳細(xì)介紹了該數(shù)據(jù)集的加工決策過程:FineWeb源自96個(gè)CommonCrawl快照,它是如何通過縝密的去重和過濾策略,比其他開放預(yù)訓(xùn)練數(shù)據(jù)集產(chǎn)生了表現(xiàn)更好的LLM的。
創(chuàng)建數(shù)據(jù)集的準(zhǔn)備工作開始創(chuàng)建數(shù)據(jù)集的第一步,需要考慮的問題是如何獲取到大規(guī)模的數(shù)據(jù)。
Common Crawl這個(gè)非營利組織自2007年以來一直在爬取網(wǎng)絡(luò)數(shù)據(jù),并且每1到2個(gè)月發(fā)布一次新的爬取,包含200到400 TiB的文本內(nèi)容。
于是,Common Craw
原文鏈接:FineWeb技術(shù)報(bào)告出爐!揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。