開源15T tokens！HuggingFace放出規模最大、質量最高預訓練數據集

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：開源15T tokens！HuggingFace放出規模最大、質量最高預訓練數據集
關鍵字：數據,報告,模型,研究人員,字符串
文章來源：新智元
內容字數：15439字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】FineWeb是一個高質量的預訓練數據集，包含15T+個tokens，主要包含英語文本；消融實驗證明了FineWeb數據集的質量要高于其他開源數據集；數據清洗腳本也已開源。Meta最近開源的Llama 3模型再次證明了「數據」是提升性能的關鍵，但現狀是，開源的大模型有一堆，可開源的大規模數據卻沒多少，而收集、清洗數據又是一項極其費時費力的工作，也導致了大模型預訓練技術仍然掌握在少數高端機構的手中。最近，Huggingface的機器學習團隊宣布開源了一個迄今為止，規模最大的、質量最高的、即用型（ready-to-use）數據集FineWeb數據集鏈接：https://huggingface.co/datasets/HuggingFaceFW/fineweb
FineWeb是在對CommonCrawl數據集（2013年夏天到2024年3月，共95個dump）進行去重、清洗后，得到的一個高質量、包含15T+個tokens（根據GPT-2的分詞器）的Web數據集，也是目前公開可用的、最干凈的語言模型預訓練數據集，其主要用作英語領域的公共數據研究。
在數據

原文鏈接：開源15T tokens！HuggingFace放出規模最大、質量最高預訓練數據集