原標題:微軟開放3.1T token高質量數據!通用/代碼/數學/問答,全領域超越開源
文章來源:新智元
內容字數:4428字
RedStone:高效構建大規模領域特定數據集的利器
大型語言模型(LLMs)的訓練依賴于海量高質量數據。然而,現有開源數據集常常難以滿足日益增長的需求。微軟研究團隊開發了RedStone,一個高效構建大規模指定領域數據的處理管道,解決了這一難題。RedStone從Common Crawl中提取數據,并構建了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等多個數據集,在多個任務中超越了現有開源數據集,顯著提升了模型性能。
1. RedStone的工作原理:RedStone結合了主流數據處理工具和自定義模塊,優化數據處理流程。它以Common Crawl為原始數據源,使用統一的數據處理框架清洗各類目標數據。其核心在于多層過濾系統,從快速過濾到精細過濾和片段抽取,確保數據質量。RedStone的代碼已開源,方便用戶復現和自定義。
2. RedStone-Web:高質量通用預訓練數據:RedStone-Web是一個大規模的通用預訓練數據集,包含3.1T tokens。RedStone對高質量數據的定義并非單純的文本流暢度,而是兼顧知識性和流暢性。其處理框架參考了refinedweb和redpajama,但采用了新的過濾系統,最終獲得了高質量的通用預訓練數據。
3. RedStone-Code、RedStone-Math和RedStone-QA:特定領域數據集:RedStone不僅構建了通用數據集,還挖掘了網絡中豐富的特定領域數據。RedStone-Code包含代碼和文本交錯的數據,RedStone-Math包含數學相關數據,RedStone-QA則是一個大規模的問答數據集。這些數據集的構建同樣依賴于RedStone的多層過濾系統,確保數據質量。
4. 實驗結果與結論:實驗結果表明,RedStone構建的數據集在多個任務中顯著優于現有開源數據集。RedStone-Web在大部分任務中都取得了最佳成績,RedStone-Code在代碼相關任務中也展現了顯著的優勢,RedStone-Math超越了OpenWebMath,RedStone-QA則在MMLU任務上提升了約10個點。這些結果證明RedStone在構建LLM訓練數據方面具有顯著的優勢,為模型預訓練和后訓練提供了堅實的數據支撐。
5. RedStone的優勢:RedStone具有高效性、可擴展性和領域適應性。其高效的數據處理管道能夠快速構建大規模數據集,其可擴展性允許構建各種類型的特定領域數據集,其領域適應性使其能夠應用于幾乎所有領域。RedStone的開源代碼也方便了社區的參與和發展。
總之,RedStone是一個功能強大的工具,它為構建高質量的大規模LLM訓練數據提供了新的途徑,推動了LLM研究的發展。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。