Nemotron-CC – 英偉達推出的大型預訓練數據集
Nemotron-CC是什么
Nemotron-CC是NVIDIA團隊開發的一款大型預訓練數據集,旨在將Common Crawl的數據轉化為適合長序列模型訓練的高質量語料。該數據集通過結合分類器集成、合成數據重述和降低對啟發式過濾器的依賴等技術,成功實現了數據量與質量之間的優化平衡。Nemotron-CC包含6.3萬億個tokens,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。在短期(1T tokens)和長期(15T tokens)訓練中,Nemotron-CC展現出卓越的性能,尤其在MMLU等任務上,相比DCLM和Llama 3.1模型,顯著提高了模型的準確率。Nemotron-CC的推出為大型語言模型的訓練提供了更加豐富和多樣化的數據資源。
Nemotron-CC的主要功能
- 提供高質量的預訓練數據集:Nemotron-CC為大型語言模型(LLMs)提供了高品質和大規模的預訓練數據,特別適合于長序列訓練,滿足15T tokens的需求。
- 優化數據量與質量:在保證數據質量的基礎上,顯著增加數據集的規模,包含更多獨特的真實tokens,從而提升模型在長序列訓練中的表現。
- 助力模型性能提升:研究表明,利用Nemotron-CC訓練的模型在多項基準測試中表現出色,特別是在MMLU等任務上,相較于其他現有數據集,能夠顯著提高模型的準確性。
Nemotron-CC的技術原理
- 優化文本提取:采用Justext作為HTML到文本的提取工具,以其在高質量tokens提取中的優越表現,有效提升了數據集的初始質量。
- 基于模型的質量標記:
- 分類器集成:構建了三個具有不同高質量偏好的質量分類器,通過集成這些分類器,為所有文檔打分,并依據質量得分對爬取的語料進行分類。
- 質量標簽分配:進一步對細粒度的質量得分進行聚類,劃分為五個下游任務的質量類別,基于連續預訓練和任務性能評估,為每個類別分配更為貼近實際性能的質量標簽。
- 合成數據生成:
- 低質量數據重述:針對低質量文檔,通過重述減少噪聲和錯誤,同時保留有用信息,采用Wikipedia風格的提示對低質量文檔進行重述,有效降低錯誤率和冗余,提高文本格式化水平。
- 高質量數據擴展:對高質量文檔,通過生成多樣化的問答對、提取和整理知識等方式,獲取更多獨特的tokens,豐富數據集內容和多樣性。
- 數據集整合:
- 大規模數據合成:利用Mistral NeMo 12B模型生成超過1.8萬億個合成tokens,其中包括從低質量文檔生成的3363億tokens和從高質量文檔生成的1.5萬億tokens。
- 數據集構建:將上述技術和方法應用于Common Crawl的99個快照(CC-MAIN-2013-20至CC-MAIN-2024-30),構建了6.3萬億tokens的數據集,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。
Nemotron-CC的項目地址
- 項目官網:https://developer.nvidia.com/blog/announcing-nemotron-cc
- arXiv技術論文:https://arxiv.org/pdf/2412.02595
Nemotron-CC的應用場景
- 預訓練大型語言模型:適用于長序列訓練(如15T tokens),提升模型在復雜任務中的表現。
- 微調與特定任務適應:便于模型在多任務學習和特定領域中快速適應,提升任務完成度。
- 文本生成任務:用于生成高質量的文本,如新聞報道、故事創作,并提升對話系統的自然流暢性。
- 研究與開發:促進模型架構和訓練方法的探索,提供基準測試資源以支持研究。
- 教育與培訓:生成教育資源,輔助語言學習,豐富教育內容的多樣性。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...