陳丹琦團(tuán)隊降本又來了:數(shù)據(jù)砍掉三分之一,性能卻完全不減
首次用元數(shù)據(jù)加速預(yù)訓(xùn)練

原標(biāo)題:陳丹琦團(tuán)隊降本又來了:數(shù)據(jù)砍掉三分之一,性能卻完全不減
文章來源:量子位
內(nèi)容字?jǐn)?shù):3463字
陳丹琦團(tuán)隊新研究:元數(shù)據(jù)加速大模型預(yù)訓(xùn)練,數(shù)據(jù)量減少三分之一性能不減
普林斯頓大學(xué)陳丹琦團(tuán)隊提出了一種名為MeCo(Metadata Conditioning then Cooldown)的新型大模型預(yù)訓(xùn)練方法,通過引入元數(shù)據(jù),在減少訓(xùn)練數(shù)據(jù)量的同時,提升了模型性能。該方法在不同模型規(guī)模(600M-8B)和數(shù)據(jù)源上均取得了顯著效果,平均性能與使用240B標(biāo)記的基線相當(dāng),而數(shù)據(jù)量卻減少了33%。
1. MeCo方法的核心:元數(shù)據(jù)調(diào)節(jié)與冷卻
MeCo方法包含兩個階段:預(yù)訓(xùn)練階段和冷卻階段。在預(yù)訓(xùn)練階段(占90%),將元數(shù)據(jù)(例如文檔URL的絕對域名)與文檔拼接進(jìn)行訓(xùn)練。研究人員只計算文檔標(biāo)記的交叉熵?fù)p失,忽略元數(shù)據(jù)標(biāo)記的損失,因為實驗表明這有助于提升下游性能。冷卻階段(占10%)使用標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行訓(xùn)練,并繼承預(yù)訓(xùn)練階段的學(xué)習(xí)率和優(yōu)化器狀態(tài)。此階段的關(guān)鍵改進(jìn)包括:禁用跨文檔Attention以加速訓(xùn)練并提升性能;確保每個序列從一個新文檔開始,避免數(shù)據(jù)浪費并提升性能。
2. 實驗結(jié)果與貢獻(xiàn)
實驗使用了Llama Transformer架構(gòu)和Llama-3 tokenizer,在四種不同模型規(guī)模(600M、1.6B、3B和8B)上進(jìn)行了測試。結(jié)果表明,MeCo顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練方法,在減少33%數(shù)據(jù)量的情況下,達(dá)到了相同的平均下游性能。該團(tuán)隊總結(jié)了MeCo的三大貢獻(xiàn):
- 顯著加速預(yù)訓(xùn)練:MeCo使1.6B模型在少用33%訓(xùn)練數(shù)據(jù)的情況下,達(dá)到與標(biāo)準(zhǔn)預(yù)訓(xùn)練模型相同的平均下游性能,并在不同模型規(guī)模和數(shù)據(jù)源下都展現(xiàn)出一致的優(yōu)勢。
- 開啟語言模型訓(xùn)練新方法:MeCo能夠根據(jù)元數(shù)據(jù)引導(dǎo)模型學(xué)習(xí),例如使用特定網(wǎng)站的URL可以提升特定任務(wù)的性能,例如常識性問題解答或降低毒性生成。
- MeCo設(shè)計選擇的消解和兼容性:研究證明MeCo與不同類型的元數(shù)據(jù)兼容,元數(shù)據(jù)的主要作用是按來源對文檔進(jìn)行分類。
3. 團(tuán)隊成員及背景
該論文的主要作者來自普林斯頓大學(xué)自然語言處理小組,包括博士生高天宇(一作,清華大學(xué)本科畢業(yè),清華特獎獲得者)、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及教授陳丹琦。團(tuán)隊成員在自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域擁有豐富的經(jīng)驗。
4. 總結(jié)
MeCo方法通過巧妙地利用元數(shù)據(jù),有效地提高了大模型預(yù)訓(xùn)練的效率,并降低了訓(xùn)練成本。這項研究為大模型的訓(xùn)練和應(yīng)用提供了新的思路,具有重要的學(xué)術(shù)意義和應(yīng)用價值。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號