<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Nemotron-CC

        AI工具4個月前發(fā)布 AI工具集
        583 0 0

        Nemotron-CC – 英偉達(dá)推出的大型預(yù)訓(xùn)練數(shù)據(jù)集

        Nemotron-CC是什么

        Nemotron-CC是NVIDIA團(tuán)隊開發(fā)的一款大型預(yù)訓(xùn)練數(shù)據(jù)集,旨在將Common Crawl的數(shù)據(jù)轉(zhuǎn)化為適合長序列模型訓(xùn)練的高質(zhì)量語料。該數(shù)據(jù)集通過結(jié)合分類器集成、合成數(shù)據(jù)重述和降低對啟發(fā)式過濾器的依賴等技術(shù),成功實現(xiàn)了數(shù)據(jù)量與質(zhì)量之間的優(yōu)化平衡。Nemotron-CC包含6.3萬億個tokens,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。在短期(1T tokens)和長期(15T tokens)訓(xùn)練中,Nemotron-CC展現(xiàn)出卓越的性能,尤其在MMLU等任務(wù)上,相比DCLM和Llama 3.1模型,顯著提高了模型的準(zhǔn)確率。Nemotron-CC的推出為大型語言模型的訓(xùn)練提供了更加豐富和多樣化的數(shù)據(jù)資源。

        Nemotron-CC

        Nemotron-CC的主要功能

        • 提供高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集:Nemotron-CC為大型語言模型(LLMs)提供了高品質(zhì)和大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),特別適合于長序列訓(xùn)練,滿足15T tokens的需求。
        • 優(yōu)化數(shù)據(jù)量與質(zhì)量:在保證數(shù)據(jù)質(zhì)量的基礎(chǔ)上,顯著增加數(shù)據(jù)集的規(guī)模,包含更多獨特的真實tokens,從而提升模型在長序列訓(xùn)練中的表現(xiàn)。
        • 助力模型性能提升:研究表明,利用Nemotron-CC訓(xùn)練的模型在多項基準(zhǔn)測試中表現(xiàn)出色,特別是在MMLU等任務(wù)上,相較于其他現(xiàn)有數(shù)據(jù)集,能夠顯著提高模型的準(zhǔn)確性。

        Nemotron-CC的技術(shù)原理

        • 優(yōu)化文本提取:采用Justext作為HTML到文本的提取工具,以其在高質(zhì)量tokens提取中的優(yōu)越表現(xiàn),有效提升了數(shù)據(jù)集的初始質(zhì)量。
        • 基于模型的質(zhì)量標(biāo)記
          • 分類器集成:構(gòu)建了三個具有不同高質(zhì)量偏好的質(zhì)量分類器,通過集成這些分類器,為所有文檔打分,并依據(jù)質(zhì)量得分對爬取的語料進(jìn)行分類。
          • 質(zhì)量標(biāo)簽分配:進(jìn)一步對細(xì)粒度的質(zhì)量得分進(jìn)行聚類,劃分為五個下游任務(wù)的質(zhì)量類別,基于連續(xù)預(yù)訓(xùn)練和任務(wù)性能評估,為每個類別分配更為貼近實際性能的質(zhì)量標(biāo)簽。
        • 合成數(shù)據(jù)生成
          • 低質(zhì)量數(shù)據(jù)重述:針對低質(zhì)量文檔,通過重述減少噪聲和錯誤,同時保留有用信息,采用Wikipedia風(fēng)格的提示對低質(zhì)量文檔進(jìn)行重述,有效降低錯誤率和冗余,提高文本格式化水平。
          • 高質(zhì)量數(shù)據(jù)擴(kuò)展:對高質(zhì)量文檔,通過生成多樣化的問答對、提取和整理知識等方式,獲取更多獨特的tokens,豐富數(shù)據(jù)集內(nèi)容和多樣性。
        • 數(shù)據(jù)集整合
          • 大規(guī)模數(shù)據(jù)合成:利用Mistral NeMo 12B模型生成超過1.8萬億個合成tokens,其中包括從低質(zhì)量文檔生成的3363億tokens和從高質(zhì)量文檔生成的1.5萬億tokens。
          • 數(shù)據(jù)集構(gòu)建:將上述技術(shù)和方法應(yīng)用于Common Crawl的99個快照(CC-MAIN-2013-20至CC-MAIN-2024-30),構(gòu)建了6.3萬億tokens的數(shù)據(jù)集,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。

        Nemotron-CC的項目地址

        Nemotron-CC的應(yīng)用場景

        • 預(yù)訓(xùn)練大型語言模型:適用于長序列訓(xùn)練(如15T tokens),提升模型在復(fù)雜任務(wù)中的表現(xiàn)。
        • 微調(diào)與特定任務(wù)適應(yīng):便于模型在多任務(wù)學(xué)習(xí)和特定領(lǐng)域中快速適應(yīng),提升任務(wù)完成度。
        • 文本生成任務(wù):用于生成高質(zhì)量的文本,如新聞報道、故事創(chuàng)作,并提升對話系統(tǒng)的自然流暢性。
        • 研究與開發(fā):促進(jìn)模型架構(gòu)和訓(xùn)練方法的探索,提供基準(zhǔn)測試資源以支持研究。
        • 教育與培訓(xùn):生成教育資源,輔助語言學(xué)習(xí),豐富教育內(nèi)容的多樣性。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久99国产综合精品免费| 青草久久精品亚洲综合专区| a一级爱做片免费| 亚洲A丁香五香天堂网| 国产亚洲精品成人久久网站| 午夜一级免费视频| 亚洲色精品三区二区一区| 亚洲电影在线播放| 亚洲视频在线免费看| 亚洲国产一区二区三区| 麻豆亚洲AV成人无码久久精品 | 国产亚洲综合一区二区三区| 日本一道高清不卡免费| 久久精品国产亚洲av瑜伽| 国产免费av片在线播放| 午夜肉伦伦影院久久精品免费看国产一区二区三区 | 99re免费在线视频| 亚洲国产精品丝袜在线观看| 日韩一区二区三区免费播放| 国产亚洲精品影视在线产品| 青青青国产手机频在线免费观看| 亚洲色图国产精品| 好爽…又高潮了毛片免费看| 免费一级毛片在线播放放视频| 亚洲色成人WWW永久网站| 一级毛片免费观看| 亚洲精品无码少妇30P| 亚洲AV无码乱码在线观看牲色| 18禁超污无遮挡无码免费网站| 免费人成网站在线高清| 最近更新免费中文字幕大全| 又粗又黄又猛又爽大片免费| 国产精品免费久久久久电影网| 亚洲小视频在线观看| 浮力影院第一页小视频国产在线观看免费 | 免费人成网站7777视频| 一区二区免费视频| 亚洲av日韩综合一区久热| 性做久久久久久免费观看| 免费人成网站永久| 亚洲色欲色欲综合网站|