首次用元數據加速預訓練
原標題:陳丹琦團隊降本又來了:數據砍掉三分之一,性能卻完全不減
文章來源:量子位
內容字數:3463字
陳丹琦團隊新研究:元數據加速大模型預訓練,數據量減少三分之一性能不減
普林斯頓大學陳丹琦團隊提出了一種名為MeCo(Metadata Conditioning then Cooldown)的新型大模型預訓練方法,通過引入元數據,在減少訓練數據量的同時,提升了模型性能。該方法在不同模型規模(600M-8B)和數據源上均取得了顯著效果,平均性能與使用240B標記的基線相當,而數據量卻減少了33%。
1. MeCo方法的核心:元數據調節與冷卻
MeCo方法包含兩個階段:預訓練階段和冷卻階段。在預訓練階段(占90%),將元數據(例如文檔URL的絕對域名)與文檔拼接進行訓練。研究人員只計算文檔標記的交叉熵損失,忽略元數據標記的損失,因為實驗表明這有助于提升下游性能。冷卻階段(占10%)使用標準數據進行訓練,并繼承預訓練階段的學習率和優化器狀態。此階段的關鍵改進包括:禁用跨文檔Attention以加速訓練并提升性能;確保每個序列從一個新文檔開始,避免數據浪費并提升性能。
2. 實驗結果與貢獻
實驗使用了Llama Transformer架構和Llama-3 tokenizer,在四種不同模型規模(600M、1.6B、3B和8B)上進行了測試。結果表明,MeCo顯著優于標準預訓練方法,在減少33%數據量的情況下,達到了相同的平均下游性能。該團隊總結了MeCo的三大貢獻:
- 顯著加速預訓練:MeCo使1.6B模型在少用33%訓練數據的情況下,達到與標準預訓練模型相同的平均下游性能,并在不同模型規模和數據源下都展現出一致的優勢。
- 開啟語言模型訓練新方法:MeCo能夠根據元數據引導模型學習,例如使用特定網站的URL可以提升特定任務的性能,例如常識性問題解答或降低毒性生成。
- MeCo設計選擇的消解和兼容性:研究證明MeCo與不同類型的元數據兼容,元數據的主要作用是按來源對文檔進行分類。
3. 團隊成員及背景
該論文的主要作者來自普林斯頓大學自然語言處理小組,包括博士生高天宇(一作,清華大學本科畢業,清華特獎獲得者)、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及教授陳丹琦。團隊成員在自然語言處理和機器學習領域擁有豐富的經驗。
4. 總結
MeCo方法通過巧妙地利用元數據,有效地提高了大模型預訓練的效率,并降低了訓練成本。這項研究為大模型的訓練和應用提供了新的思路,具有重要的學術意義和應用價值。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
相關文章
