AIGC動態歡迎閱讀
原標題:開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集
關鍵字:數據,報告,模型,研究人員,字符串
文章來源:新智元
內容字數:15439字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】FineWeb是一個高質量的預訓練數據集,包含15T+個tokens,主要包含英語文本;消融實驗證明了FineWeb數據集的質量要高于其他開源數據集;數據清洗腳本也已開源。Meta最近開源的Llama 3模型再次證明了「數據」是提升性能的關鍵,但現狀是,開源的大模型有一堆,可開源的大規模數據卻沒多少,而收集、清洗數據又是一項極其費時費力的工作,也導致了大模型預訓練技術仍然掌握在少數高端機構的手中。最近,Huggingface的機器學習團隊宣布開源了一個迄今為止,規模最大的、質量最高的、即用型(ready-to-use)數據集FineWeb數據集鏈接:https://huggingface.co/datasets/HuggingFaceFW/fineweb
FineWeb是在對CommonCrawl數據集(2013年夏天到2024年3月,共95個dump)進行去重、清洗后,得到的一個高質量、包含15T+個tokens(根據GPT-2的分詞器)的Web數據集,也是目前公開可用的、最干凈的語言模型預訓練數據集,其主要用作英語領域的公共數據研究。
在數據
原文鏈接:開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...