微軟開放3.1T token高質(zhì)量數(shù)據(jù)！通用/代碼/數(shù)學(xué)/問答，全領(lǐng)域超越開源

原標(biāo)題：微軟開放3.1T token高質(zhì)量數(shù)據(jù)！通用/代碼/數(shù)學(xué)/問答，全領(lǐng)域超越開源
文章來源：新智元
內(nèi)容字?jǐn)?shù)：4428字

RedStone：高效構(gòu)建大規(guī)模領(lǐng)域特定數(shù)據(jù)集的利器

大型語言模型(LLMs)的訓(xùn)練依賴于海量高質(zhì)量數(shù)據(jù)。然而，現(xiàn)有開源數(shù)據(jù)集常常難以滿足日益增長的需求。微軟研究團隊開發(fā)了RedStone，一個高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道，解決了這一難題。RedStone從Common Crawl中提取數(shù)據(jù)，并構(gòu)建了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等多個數(shù)據(jù)集，在多個任務(wù)中超越了現(xiàn)有開源數(shù)據(jù)集，顯著提升了模型性能。

1. RedStone的工作原理：RedStone結(jié)合了主流數(shù)據(jù)處理工具和自定義模塊，優(yōu)化數(shù)據(jù)處理流程。它以Common Crawl為原始數(shù)據(jù)源，使用統(tǒng)一的數(shù)據(jù)處理框架清洗各類目標(biāo)數(shù)據(jù)。其核心在于多層過濾系統(tǒng)，從快速過濾到精細(xì)過濾和片段抽取，確保數(shù)據(jù)質(zhì)量。RedStone的代碼已開源，方便用戶復(fù)現(xiàn)和自定義。

2. RedStone-Web：高質(zhì)量通用預(yù)訓(xùn)練數(shù)據(jù)：RedStone-Web是一個大規(guī)模的通用預(yù)訓(xùn)練數(shù)據(jù)集，包含3.1T tokens。RedStone對高質(zhì)量數(shù)據(jù)的定義并非單純的文本流暢度，而是兼顧知識性和流暢性。其處理框架參考了refinedweb和redpajama，但采用了新的過濾系統(tǒng)，最終獲得了高質(zhì)量的通用預(yù)訓(xùn)練數(shù)據(jù)。

3. RedStone-Code、RedStone-Math和RedStone-QA：特定領(lǐng)域數(shù)據(jù)集：RedStone不僅構(gòu)建了通用數(shù)據(jù)集，還挖掘了網(wǎng)絡(luò)中豐富的特定領(lǐng)域數(shù)據(jù)。RedStone-Code包含代碼和文本交錯的數(shù)據(jù)，RedStone-Math包含數(shù)學(xué)相關(guān)數(shù)據(jù)，RedStone-QA則是一個大規(guī)模的問答數(shù)據(jù)集。這些數(shù)據(jù)集的構(gòu)建同樣依賴于RedStone的多層過濾系統(tǒng)，確保數(shù)據(jù)質(zhì)量。

4. 實驗結(jié)果與結(jié)論：實驗結(jié)果表明，RedStone構(gòu)建的數(shù)據(jù)集在多個任務(wù)中顯著優(yōu)于現(xiàn)有開源數(shù)據(jù)集。RedStone-Web在大部分任務(wù)中都取得了最佳成績，RedStone-Code在代碼相關(guān)任務(wù)中也展現(xiàn)了顯著的優(yōu)勢，RedStone-Math超越了OpenWebMath，RedStone-QA則在MMLU任務(wù)上提升了約10個點。這些結(jié)果證明RedStone在構(gòu)建LLM訓(xùn)練數(shù)據(jù)方面具有顯著的優(yōu)勢，為模型預(yù)訓(xùn)練和后訓(xùn)練提供了堅實的數(shù)據(jù)支撐。

5. RedStone的優(yōu)勢：RedStone具有高效性、可擴展性和領(lǐng)域適應(yīng)性。其高效的數(shù)據(jù)處理管道能夠快速構(gòu)建大規(guī)模數(shù)據(jù)集，其可擴展性允許構(gòu)建各種類型的特定領(lǐng)域數(shù)據(jù)集，其領(lǐng)域適應(yīng)性使其能夠應(yīng)用于幾乎所有領(lǐng)域。RedStone的開源代碼也方便了社區(qū)的參與和發(fā)展。

總之，RedStone是一個功能強大的工具，它為構(gòu)建高質(zhì)量的大規(guī)模LLM訓(xùn)練數(shù)據(jù)提供了新的途徑，推動了LLM研究的發(fā)展。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文