少用33％數(shù)據(jù)，模型性能不變，陳丹琦團隊用元數(shù)據(jù)來做降本增效

引入URL信息的預(yù)訓(xùn)練方法。

原標(biāo)題：少用33％數(shù)據(jù)，模型性能不變，陳丹琦團隊用元數(shù)據(jù)來做降本增效
文章來源：機器之心
內(nèi)容字數(shù)：5819字

普林斯頓大學(xué)陳丹琦團隊新作：MeCo方法加速預(yù)訓(xùn)練語言模型

普林斯頓大學(xué)計算機科學(xué)系助理教授陳丹琦團隊最新論文提出了一種名為MeCo（Metadata Conditioning then Cooldown）的預(yù)訓(xùn)練方法，該方法通過利用文檔元數(shù)據(jù)（例如URL）來顯著提高語言模型的數(shù)據(jù)效率，同時幾乎不會增加計算開銷。

1. MeCo方法的核心思想

傳統(tǒng)語言模型將所有訓(xùn)練數(shù)據(jù)視為同等重要，忽略了數(shù)據(jù)來源的上下文信息。MeCo方法則在每個文檔前添加其元數(shù)據(jù)（例如URL），從而為模型提供額外的上下文信息。在預(yù)訓(xùn)練的最后10%，MeCo采用“冷卻”（cooldown）階段，停止使用元數(shù)據(jù)，確保模型在推理階段無論是否有元數(shù)據(jù)都能正常工作。

2. MeCo方法的優(yōu)勢

MeCo方法具有以下幾個顯著優(yōu)勢：

顯著提升數(shù)據(jù)效率：實驗表明，MeCo能夠使1.6B參數(shù)的模型在使用減少33%的訓(xùn)練數(shù)據(jù)情況下，達到與標(biāo)準(zhǔn)預(yù)訓(xùn)練模型相同的下游任務(wù)性能。這種優(yōu)勢在不同模型規(guī)模(600M、1.6B、3B、8B)和數(shù)據(jù)源(C4、RefinedWeb、DCLM)上都得到了驗證。
提供模型行為引導(dǎo)：在推理階段，通過在提示前添加合適的真實或合成URL，可以引導(dǎo)模型產(chǎn)生期望的行為。例如，使用“factquizmaster.com”可以提升常識推理性能，而使用“wikipedia.org”可以降低模型生成有害內(nèi)容的可能性。
兼容多種元數(shù)據(jù)：MeCo方法兼容多種類型的元數(shù)據(jù)，例如散列URL和模型生成的主題，其核心作用在于根據(jù)來源對文檔進行分組。
幾乎不增加計算開銷：MeCo方法在提升數(shù)據(jù)效率的同時，幾乎不會增加預(yù)訓(xùn)練的計算開銷和復(fù)雜性。

3. MeCo方法的訓(xùn)練階段

MeCo方法包含兩個訓(xùn)練階段：

元數(shù)據(jù)條件預(yù)訓(xùn)練 (前90%): 模型在元數(shù)據(jù)和文檔的拼接序列上進行訓(xùn)練，例如“URL: en.wikipedia.org\n\n [document]”。損失函數(shù)僅計算文檔token的交叉熵損失。
冷卻階段 (后10%): 使用不含元數(shù)據(jù)的標(biāo)準(zhǔn)預(yù)訓(xùn)練數(shù)據(jù)進行訓(xùn)練，確保模型在無元數(shù)據(jù)情況下也能正常工作。該階段繼承了上一階段的學(xué)習(xí)率計劃和優(yōu)化器狀態(tài)。

4. 實驗結(jié)果

實驗結(jié)果表明，MeCo方法在各種模型規(guī)模、數(shù)據(jù)源和下游任務(wù)上都取得了顯著的性能提升。MeCo在數(shù)據(jù)量減少的情況下，依然能夠達到與標(biāo)準(zhǔn)預(yù)訓(xùn)練方法相當(dāng)?shù)男阅?，體現(xiàn)了其優(yōu)越的數(shù)據(jù)效率。

5. 結(jié)論

MeCo是一種簡單、靈活且高效的預(yù)訓(xùn)練方法，它能夠同時提高語言模型的數(shù)據(jù)效率、可控性和實用性，為構(gòu)建更強大和可控的語言模型提供了新的思路。其兼容多種元數(shù)據(jù)的特性也值得進一步探索。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# 低資源AI # 元數(shù)據(jù)增強 # 性能不變 # 數(shù)據(jù)降維 # 模型壓縮

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

少用33％數(shù)據(jù)，模型性能不變，陳丹琦團隊用元數(shù)據(jù)來做降本增效

引入URL信息的預(yù)訓(xùn)練方法。

普林斯頓大學(xué)陳丹琦團隊新作：MeCo方法加速預(yù)訓(xùn)練語言模型

1. MeCo方法的核心思想

2. MeCo方法的優(yōu)勢

3. MeCo方法的訓(xùn)練階段

4. 實驗結(jié)果

5. 結(jié)論

聯(lián)系作者

CES2025進行中，量子位AI專題已就位

獨家丨前微軟亞研院視覺專家胡瀚加入騰訊，負責(zé)混元多模態(tài)大模型

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

少用33％數(shù)據(jù)，模型性能不變，陳丹琦團隊用元數(shù)據(jù)來做降本增效

引入URL信息的預(yù)訓(xùn)練方法。

普林斯頓大學(xué)陳丹琦團隊新作：MeCo方法加速預(yù)訓(xùn)練語言模型

1. MeCo方法的核心思想

2. MeCo方法的優(yōu)勢

3. MeCo方法的訓(xùn)練階段

4. 實驗結(jié)果

5. 結(jié)論

聯(lián)系作者

CES2025進行中，量子位AI專題已就位

獨家丨前微軟亞研院視覺專家胡瀚加入騰訊，負責(zé)混元多模態(tài)大模型

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

少用33％數(shù)據(jù)，模型性能不變，陳丹琦團隊用元數(shù)據(jù)來做降本增效

引入URL信息的預(yù)訓(xùn)練方法。

獨家丨前微軟亞研院視覺專家胡瀚加入騰訊，負責(zé)混元多模態(tài)大模型