<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集

        AIGC動態1年前 (2024)發布 新智元
        505 0 0

        開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集

        AIGC動態歡迎閱讀

        原標題:開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據
        關鍵字:數據,報告,模型,研究人員,字符串
        文章來源:新智元
        內容字數:15439字

        內容摘要:


        新智元報道編輯:LRS
        【新智元導讀】FineWeb是一個高質量的預訓練數據集,包含15T+個tokens,主要包含英語文本;消融實驗證明了FineWeb數據集的質量要高于其他開源數據集;數據清洗腳本也已開源。Meta最近開源的Llama 3模型再次證明了「數據」是提升性能的關鍵,但現狀是,開源的大模型有一堆,可開源的大規模數據卻沒多少,而收集、清洗數據又是一項極其費時費力的工作,也導致了大模型預訓練技術仍然掌握在少數高端機構的手中。最近,Huggingface的機器學習團隊宣布開源了一個迄今為止,規模最大的、質量最高的、即用型(ready-to-use)數據集FineWeb數據集鏈接:https://huggingface.co/datasets/HuggingFaceFW/fineweb
        FineWeb是在對CommonCrawl數據集(2013年夏天到2024年3月,共95個dump)進行去重、清洗后,得到的一個高質量、包含15T+個tokens(根據GPT-2的分詞器)的Web數據集,也是目前公開可用的、最干凈的語言模型預訓練數據集,其主要用作英語領域的公共數據研究。
        在數據


        原文鏈接:開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集

        聯系作者

        文章來源:新智元
        作者微信:AI_era
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 精品一区二区三区免费观看| 亚洲AV成人无码久久WWW| 色多多A级毛片免费看| 国产成人亚洲合集青青草原精品 | 亚洲国产精品无码久久久久久曰 | 在线观看免费大黄网站| 中文字幕亚洲精品无码| 久久精品网站免费观看| 亚洲熟妇AV乱码在线观看| 日韩免费观看的一级毛片| 亚洲1区2区3区精华液| 国产一区二区免费在线| www.xxxx.com日本免费| 亚洲一区二区三区无码中文字幕| 99视频免费在线观看| 亚洲黄色在线视频| 91精品视频免费| 香蕉视频亚洲一级| 国产午夜亚洲精品午夜鲁丝片| 久久国产免费观看精品| 亚洲欧洲视频在线观看| 全免费A级毛片免费看网站| 免费在线观看一区| 亚洲国产精品久久久天堂| 曰批全过程免费视频网址 | 污视频网站免费在线观看| 亚洲中文字幕久久精品无码APP | 免费一级肉体全黄毛片| 成人免费av一区二区三区| 久久久久久久亚洲Av无码| 尤物视频在线免费观看| 精品久久久久久亚洲| 精品国产无限资源免费观看| 黄网站在线播放视频免费观看| 日韩精品亚洲aⅴ在线影院| 6080午夜一级毛片免费看| 妇女自拍偷自拍亚洲精品| 亚洲AV成人无码久久精品老人| 成人性生交大片免费看无遮挡| 一级毛片大全免费播放下载| 亚洲男人电影天堂|