FineWeb技術(shù)報(bào)告出爐！揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：FineWeb技術(shù)報(bào)告出爐！揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集
關(guān)鍵字：報(bào)告,數(shù)據(jù),模型,研究者,性能
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：Mindy
【新智元導(dǎo)讀】從大規(guī)模網(wǎng)絡(luò)爬取、精細(xì)過濾到去重技術(shù)，通過FineWeb的技術(shù)報(bào)告探索如何打造高質(zhì)量數(shù)據(jù)集，為大型語言模型（LLM）預(yù)訓(xùn)練提供更優(yōu)質(zhì)的性能。大型語言模型（LLMs）的性能在很大程度上取決于它的預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和大小。
然而，像Llama 3和Mixtral這樣最先進(jìn)的LLMs的預(yù)訓(xùn)練數(shù)據(jù)集并不公開；關(guān)于它們是如何創(chuàng)建的，我們知之甚少。
近日，Hugging Face上的一個(gè)團(tuán)隊(duì)發(fā)布了FineWeb數(shù)據(jù)集，這是一個(gè)用于LLM預(yù)訓(xùn)練的新型大規(guī)模（15萬億個(gè)tokens，44TB磁盤空間）數(shù)據(jù)集。
同時(shí)，他們還通過技術(shù)報(bào)告詳細(xì)介紹了該數(shù)據(jù)集的加工決策過程：FineWeb源自96個(gè)CommonCrawl快照，它是如何通過縝密的去重和過濾策略，比其他開放預(yù)訓(xùn)練數(shù)據(jù)集產(chǎn)生了表現(xiàn)更好的LLM的。
創(chuàng)建數(shù)據(jù)集的準(zhǔn)備工作開始創(chuàng)建數(shù)據(jù)集的第一步，需要考慮的問題是如何獲取到大規(guī)模的數(shù)據(jù)。
Common Crawl這個(gè)非營利組織自2007年以來一直在爬取網(wǎng)絡(luò)數(shù)據(jù)，并且每1到2個(gè)月發(fā)布一次新的爬取，包含200到400 TiB的文本內(nèi)容。
于是，Common Craw

原文鏈接：FineWeb技術(shù)報(bào)告出爐！揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時(shí)代。

閱讀原文

# AIGC動態(tài)# 性能 # 報(bào)告 # 數(shù)據(jù)# 模型 # 研究者

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

FineWeb技術(shù)報(bào)告出爐！揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

2024過半，AI卷到哪兒了？

從LLM中完全消除矩陣乘法，效果出奇得好，10億參數(shù)跑在FPGA上接近大腦功耗

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

FineWeb技術(shù)報(bào)告出爐！揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

2024過半，AI卷到哪兒了？

從LLM中完全消除矩陣乘法，效果出奇得好，10億參數(shù)跑在FPGA上接近大腦功耗

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

FineWeb技術(shù)報(bào)告出爐！揭秘HuggingFace規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

2024過半，AI卷到哪兒了？

從LLM中完全消除矩陣乘法，效果出奇得好，10億參數(shù)跑在FPGA上接近大腦功耗

玩虛擬模特？