Nemotron-CC

Nemotron-CC – 英偉達推出的大型預訓練數據集

Nemotron-CC是什么

Nemotron-CC是NVIDIA團隊開發的一款大型預訓練數據集，旨在將Common Crawl的數據轉化為適合長序列模型訓練的高質量語料。該數據集通過結合分類器集成、合成數據重述和降低對啟發式過濾器的依賴等技術，成功實現了數據量與質量之間的優化平衡。Nemotron-CC包含6.3萬億個tokens，其中4.4萬億為全球去重的原始tokens，1.9萬億為合成生成的tokens。在短期（1T tokens）和長期（15T tokens）訓練中，Nemotron-CC展現出卓越的性能，尤其在MMLU等任務上，相比DCLM和Llama 3.1模型，顯著提高了模型的準確率。Nemotron-CC的推出為大型語言模型的訓練提供了更加豐富和多樣化的數據資源。

Nemotron-CC

Nemotron-CC的主要功能

提供高質量的預訓練數據集：Nemotron-CC為大型語言模型（LLMs）提供了高品質和大規模的預訓練數據，特別適合于長序列訓練，滿足15T tokens的需求。
優化數據量與質量：在保證數據質量的基礎上，顯著增加數據集的規模，包含更多獨特的真實tokens，從而提升模型在長序列訓練中的表現。
助力模型性能提升：研究表明，利用Nemotron-CC訓練的模型在多項基準測試中表現出色，特別是在MMLU等任務上，相較于其他現有數據集，能夠顯著提高模型的準確性。

Nemotron-CC的技術原理

優化文本提取：采用Justext作為HTML到文本的提取工具，以其在高質量tokens提取中的優越表現，有效提升了數據集的初始質量。
基于模型的質量標記：
- 分類器集成：構建了三個具有不同高質量偏好的質量分類器，通過集成這些分類器，為所有文檔打分，并依據質量得分對爬取的語料進行分類。
- 質量標簽分配：進一步對細粒度的質量得分進行聚類，劃分為五個下游任務的質量類別，基于連續預訓練和任務性能評估，為每個類別分配更為貼近實際性能的質量標簽。
合成數據生成：
- 低質量數據重述：針對低質量文檔，通過重述減少噪聲和錯誤，同時保留有用信息，采用Wikipedia風格的提示對低質量文檔進行重述，有效降低錯誤率和冗余，提高文本格式化水平。
- 高質量數據擴展：對高質量文檔，通過生成多樣化的問答對、提取和整理知識等方式，獲取更多獨特的tokens，豐富數據集內容和多樣性。
數據集整合：
- 大規模數據合成：利用Mistral NeMo 12B模型生成超過1.8萬億個合成tokens，其中包括從低質量文檔生成的3363億tokens和從高質量文檔生成的1.5萬億tokens。
- 數據集構建：將上述技術和方法應用于Common Crawl的99個快照（CC-MAIN-2013-20至CC-MAIN-2024-30），構建了6.3萬億tokens的數據集，其中4.4萬億為全球去重的原始tokens，1.9萬億為合成生成的tokens。