文章全面探討了大語言模型在預訓練數據選擇上的重要性。
原標題:ICLR 2025|浙大、千問發布預訓練數據管理器DataMan,53頁細節滿滿
文章來源:機器之心
內容字數:5346字
DataMan: 提升大語言模型預訓練效率的數據管理器
本文總結了浙江大學和阿里巴巴千問團隊合作發表的論文“DataMan: Data Manager for Pre-training Large Language Models”,該論文提出了一種名為DataMan的數據管理器,用于優化大語言模型(LLMs)的預訓練過程。在大型語言模型快速發展的背景下,高質量的預訓練數據至關重要,而DataMan正是為了解決現有數據選擇方法缺乏明確指導原則的問題而設計的。
1. 逆向思維指導質量標準
DataMan的核心思想是“逆向思維”,即利用強大的LLM (Super LLM)來分析模型困惑度異常的文本,從而反推出哪些文本特征對模型性能有益。通過這個過程,研究人員迭代提煉出13個文本質量標準,并結合一個綜合性的“總體評分”,最終構建了一個全面的質量評分體系。Super LLM對這些標準的評分與人工評分的一致性超過95%,驗證了其有效性。
2. DataMan 的工作流程
DataMan是一個綜合性數據管理器,其工作流程主要包括三個步驟:
數據標注: 利用Super LLM對SlimPajama語料庫進行標注,包括14個質量評分標準和15個應用領域。
模型微調: 使用Qwen2-1.5B作為基礎模型,通過文本生成損失進行微調,學習自動評分和識別領域。
數據采樣: 基于DataMan的評分和領域識別結果,采用不同的數據采樣策略,例如top-k采樣,以最大化樣本的代表性和多樣性。
3. 實驗結果與分析
研究人員使用DataPajama (一個447B token的預訓練語料庫)進行了實驗,比較了DataMan和其他數據選擇方法的性能。結果表明,使用DataMan選擇的數據訓練的模型在多個下游任務上均優于基線模型,勝率最高可達78.5%,并且性能超過使用50%更多數據訓練的模型。尤其在上下文學習(ICL)任務中,DataMan的優勢更為顯著。
此外,研究還探索了DataMan在垂直領域繼續預訓練的應用,以及數據量對模型性能的影響。實驗結果表明,DataMan能夠有效地進行領域混合和數據選擇,提升模型在特定領域的性能。
4. 困惑度與上下文學習的錯位
研究發現,困惑度(PPL)和上下文學習(ICL)性能之間存在錯位現象,主要原因是領域不匹配和ICL任務的復雜性。一些ICL任務需要復雜的推理能力,而PPL難以捕捉這種能力。
5. 結論
DataMan提供了一種有效的數據管理方法,能夠顯著提升大語言模型的預訓練效率和性能。其逆向思維和多維度質量評估體系為大規模預訓練數據選擇提供了新的思路和指導。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺