微軟開放3.1T token高質(zhì)量數(shù)據(jù)!通用/代碼/數(shù)學(xué)/問答,全領(lǐng)域超越開源
原標(biāo)題:微軟開放3.1T token高質(zhì)量數(shù)據(jù)!通用/代碼/數(shù)學(xué)/問答,全領(lǐng)域超越開源
文章來源:新智元
內(nèi)容字?jǐn)?shù):4428字
RedStone:高效構(gòu)建大規(guī)模領(lǐng)域特定數(shù)據(jù)集的利器
大型語言模型(LLMs)的訓(xùn)練依賴于海量高質(zhì)量數(shù)據(jù)。然而,現(xiàn)有開源數(shù)據(jù)集常常難以滿足日益增長的需求。微軟研究團隊開發(fā)了RedStone,一個高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,解決了這一難題。RedStone從Common Crawl中提取數(shù)據(jù),并構(gòu)建了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等多個數(shù)據(jù)集,在多個任務(wù)中超越了現(xiàn)有開源數(shù)據(jù)集,顯著提升了模型性能。
1. RedStone的工作原理:RedStone結(jié)合了主流數(shù)據(jù)處理工具和自定義模塊,優(yōu)化數(shù)據(jù)處理流程。它以Common Crawl為原始數(shù)據(jù)源,使用統(tǒng)一的數(shù)據(jù)處理框架清洗各類目標(biāo)數(shù)據(jù)。其核心在于多層過濾系統(tǒng),從快速過濾到精細(xì)過濾和片段抽取,確保數(shù)據(jù)質(zhì)量。RedStone的代碼已開源,方便用戶復(fù)現(xiàn)和自定義。
2. RedStone-Web:高質(zhì)量通用預(yù)訓(xùn)練數(shù)據(jù):RedStone-Web是一個大規(guī)模的通用預(yù)訓(xùn)練數(shù)據(jù)集,包含3.1T tokens。RedStone對高質(zhì)量數(shù)據(jù)的定義并非單純的文本流暢度,而是兼顧知識性和流暢性。其處理框架參考了refinedweb和redpajama,但采用了新的過濾系統(tǒng),最終獲得了高質(zhì)量的通用預(yù)訓(xùn)練數(shù)據(jù)。
3. RedStone-Code、RedStone-Math和RedStone-QA:特定領(lǐng)域數(shù)據(jù)集:RedStone不僅構(gòu)建了通用數(shù)據(jù)集,還挖掘了網(wǎng)絡(luò)中豐富的特定領(lǐng)域數(shù)據(jù)。RedStone-Code包含代碼和文本交錯的數(shù)據(jù),RedStone-Math包含數(shù)學(xué)相關(guān)數(shù)據(jù),RedStone-QA則是一個大規(guī)模的問答數(shù)據(jù)集。這些數(shù)據(jù)集的構(gòu)建同樣依賴于RedStone的多層過濾系統(tǒng),確保數(shù)據(jù)質(zhì)量。
4. 實驗結(jié)果與結(jié)論:實驗結(jié)果表明,RedStone構(gòu)建的數(shù)據(jù)集在多個任務(wù)中顯著優(yōu)于現(xiàn)有開源數(shù)據(jù)集。RedStone-Web在大部分任務(wù)中都取得了最佳成績,RedStone-Code在代碼相關(guān)任務(wù)中也展現(xiàn)了顯著的優(yōu)勢,RedStone-Math超越了OpenWebMath,RedStone-QA則在MMLU任務(wù)上提升了約10個點。這些結(jié)果證明RedStone在構(gòu)建LLM訓(xùn)練數(shù)據(jù)方面具有顯著的優(yōu)勢,為模型預(yù)訓(xùn)練和后訓(xùn)練提供了堅實的數(shù)據(jù)支撐。
5. RedStone的優(yōu)勢:RedStone具有高效性、可擴展性和領(lǐng)域適應(yīng)性。其高效的數(shù)據(jù)處理管道能夠快速構(gòu)建大規(guī)模數(shù)據(jù)集,其可擴展性允許構(gòu)建各種類型的特定領(lǐng)域數(shù)據(jù)集,其領(lǐng)域適應(yīng)性使其能夠應(yīng)用于幾乎所有領(lǐng)域。RedStone的開源代碼也方便了社區(qū)的參與和發(fā)展。
總之,RedStone是一個功能強大的工具,它為構(gòu)建高質(zhì)量的大規(guī)模LLM訓(xùn)練數(shù)據(jù)提供了新的途徑,推動了LLM研究的發(fā)展。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。