ICLR 2025｜浙大、千問發(fā)布預(yù)訓(xùn)練數(shù)據(jù)管理器DataMan，53頁細(xì)節(jié)滿滿

文章全面探討了大語言模型在預(yù)訓(xùn)練數(shù)據(jù)選擇上的重要性。

原標(biāo)題：ICLR 2025｜浙大、千問發(fā)布預(yù)訓(xùn)練數(shù)據(jù)管理器DataMan，53頁細(xì)節(jié)滿滿
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5346字

DataMan: 提升大語言模型預(yù)訓(xùn)練效率的數(shù)據(jù)管理器

本文總結(jié)了浙江大學(xué)和阿里巴巴千問團(tuán)隊(duì)合作發(fā)表的論文“DataMan: Data Manager for Pre-training Large Language Models”，該論文提出了一種名為DataMan的數(shù)據(jù)管理器，用于優(yōu)化大語言模型(LLMs)的預(yù)訓(xùn)練過程。在大型語言模型快速發(fā)展的背景下，高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)至關(guān)重要，而DataMan正是為了解決現(xiàn)有數(shù)據(jù)選擇方法缺乏明確指導(dǎo)原則的問題而設(shè)計(jì)的。

1. 逆向思維指導(dǎo)質(zhì)量標(biāo)準(zhǔn)

DataMan的核心思想是“逆向思維”，即利用強(qiáng)大的LLM (Super LLM)來分析模型困惑度異常的文本，從而反推出哪些文本特征對模型性能有益。通過這個(gè)過程，研究人員迭代提煉出13個(gè)文本質(zhì)量標(biāo)準(zhǔn)，并結(jié)合一個(gè)綜合性的“總體評分”，最終構(gòu)建了一個(gè)全面的質(zhì)量評分體系。Super LLM對這些標(biāo)準(zhǔn)的評分與人工評分的一致性超過95%，驗(yàn)證了其有效性。

2. DataMan 的工作流程

DataMan是一個(gè)綜合性數(shù)據(jù)管理器，其工作流程主要包括三個(gè)步驟：

數(shù)據(jù)標(biāo)注： 利用Super LLM對SlimPajama語料庫進(jìn)行標(biāo)注，包括14個(gè)質(zhì)量評分標(biāo)準(zhǔn)和15個(gè)應(yīng)用領(lǐng)域。
模型微調(diào)： 使用Qwen2-1.5B作為基礎(chǔ)模型，通過文本生成損失進(jìn)行微調(diào)，學(xué)習(xí)自動評分和識別領(lǐng)域。
數(shù)據(jù)采樣： 基于DataMan的評分和領(lǐng)域識別結(jié)果，采用不同的數(shù)據(jù)采樣策略，例如top-k采樣，以最大化樣本的代表性和多樣性。

3. 實(shí)驗(yàn)結(jié)果與分析

研究人員使用DataPajama (一個(gè)447B token的預(yù)訓(xùn)練語料庫)進(jìn)行了實(shí)驗(yàn)，比較了DataMan和其他數(shù)據(jù)選擇方法的性能。結(jié)果表明，使用DataMan選擇的數(shù)據(jù)訓(xùn)練的模型在多個(gè)下游任務(wù)上均優(yōu)于基線模型，勝率最高可達(dá)78.5%，并且性能超過使用50%更多數(shù)據(jù)訓(xùn)練的模型。尤其在上下文學(xué)習(xí)(ICL)任務(wù)中，DataMan的優(yōu)勢更為顯著。

此外，研究還探索了DataMan在垂直領(lǐng)域繼續(xù)預(yù)訓(xùn)練的應(yīng)用，以及數(shù)據(jù)量對模型性能的影響。實(shí)驗(yàn)結(jié)果表明，DataMan能夠有效地進(jìn)行領(lǐng)域混合和數(shù)據(jù)選擇，提升模型在特定領(lǐng)域的性能。

4. 困惑度與上下文學(xué)習(xí)的錯位

研究發(fā)現(xiàn)，困惑度(PPL)和上下文學(xué)習(xí)(ICL)性能之間存在錯位現(xiàn)象，主要原因是領(lǐng)域不匹配和ICL任務(wù)的復(fù)雜性。一些ICL任務(wù)需要復(fù)雜的推理能力，而PPL難以捕捉這種能力。

5. 結(jié)論

DataMan提供了一種有效的數(shù)據(jù)管理方法，能夠顯著提升大語言模型的預(yù)訓(xùn)練效率和性能。其逆向思維和多維度質(zhì)量評估體系為大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)選擇提供了新的思路和指導(dǎo)。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# 低資源語言數(shù)據(jù)# 大型語言模型數(shù)據(jù)# 數(shù)據(jù)增強(qiáng)策略 # 數(shù)據(jù)質(zhì)量控制 # 預(yù)訓(xùn)練數(shù)據(jù)管理

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ICLR 2025｜浙大、千問發(fā)布預(yù)訓(xùn)練數(shù)據(jù)管理器DataMan，53頁細(xì)節(jié)滿滿

文章全面探討了大語言模型在預(yù)訓(xùn)練數(shù)據(jù)選擇上的重要性。

DataMan: 提升大語言模型預(yù)訓(xùn)練效率的數(shù)據(jù)管理器

1. 逆向思維指導(dǎo)質(zhì)量標(biāo)準(zhǔn)

2. DataMan 的工作流程

3. 實(shí)驗(yàn)結(jié)果與分析

4. 困惑度與上下文學(xué)習(xí)的錯位

5. 結(jié)論

聯(lián)系作者

超11w下載，OpenThoughts-114k推理數(shù)據(jù)集上線；首個(gè)AI短劇創(chuàng)作神器SkyReels-V1來了！告別高成本長周期

90后北大校友破解掛谷猜想，陶哲軒激動轉(zhuǎn)發(fā)！網(wǎng)友：預(yù)定菲爾茲獎

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

ICLR 2025｜浙大、千問發(fā)布預(yù)訓(xùn)練數(shù)據(jù)管理器DataMan，53頁細(xì)節(jié)滿滿

文章全面探討了大語言模型在預(yù)訓(xùn)練數(shù)據(jù)選擇上的重要性。

DataMan: 提升大語言模型預(yù)訓(xùn)練效率的數(shù)據(jù)管理器

1. 逆向思維指導(dǎo)質(zhì)量標(biāo)準(zhǔn)

2. DataMan 的工作流程

3. 實(shí)驗(yàn)結(jié)果與分析

4. 困惑度與上下文學(xué)習(xí)的錯位

5. 結(jié)論

聯(lián)系作者

超11w下載，OpenThoughts-114k推理數(shù)據(jù)集上線；首個(gè)AI短劇創(chuàng)作神器SkyReels-V1來了！告別高成本長周期

90后北大校友破解掛谷猜想，陶哲軒激動轉(zhuǎn)發(fā)！網(wǎng)友：預(yù)定菲爾茲獎

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

ICLR 2025｜浙大、千問發(fā)布預(yù)訓(xùn)練數(shù)據(jù)管理器DataMan，53頁細(xì)節(jié)滿滿

超11w下載，OpenThoughts-114k推理數(shù)據(jù)集上線；首個(gè)AI短劇創(chuàng)作神器SkyReels-V1來了！告別高成本長周期

玩虛擬模特？