陳丹琦團隊降本又來了：數據砍掉三分之一，性能卻完全不減

首次用元數據加速預訓練

陳丹琦團隊降本大法又來了：數據砍掉三分之一，性能卻完全不減

原標題：陳丹琦團隊降本又來了：數據砍掉三分之一，性能卻完全不減
文章來源：量子位
內容字數：3463字

陳丹琦團隊新研究：元數據加速大模型預訓練，數據量減少三分之一性能不減

普林斯頓大學陳丹琦團隊提出了一種名為MeCo（Metadata Conditioning then Cooldown）的新型大模型預訓練方法，通過引入元數據，在減少訓練數據量的同時，提升了模型性能。該方法在不同模型規模（600M-8B）和數據源上均取得了顯著效果，平均性能與使用240B標記的基線相當，而數據量卻減少了33%。

1. MeCo方法的核心：元數據調節與冷卻

MeCo方法包含兩個階段：預訓練階段和冷卻階段。在預訓練階段（占90%），將元數據（例如文檔URL的絕對域名）與文檔拼接進行訓練。研究人員只計算文檔標記的交叉熵損失，忽略元數據標記的損失，因為實驗表明這有助于提升下游性能。冷卻階段（占10%）使用標準數據進行訓練，并繼承預訓練階段的學習率和優化器狀態。此階段的關鍵改進包括：禁用跨文檔Attention以加速訓練并提升性能；確保每個序列從一個新文檔開始，避免數據浪費并提升性能。

2. 實驗結果與貢獻

實驗使用了Llama Transformer架構和Llama-3 tokenizer，在四種不同模型規模（600M、1.6B、3B和8B）上進行了測試。結果表明，MeCo顯著優于標準預訓練方法，在減少33%數據量的情況下，達到了相同的平均下游性能。該團隊總結了MeCo的三大貢獻：

顯著加速預訓練：MeCo使1.6B模型在少用33%訓練數據的情況下，達到與標準預訓練模型相同的平均下游性能，并在不同模型規模和數據源下都展現出一致的優勢。
開啟語言模型訓練新方法：MeCo能夠根據元數據引導模型學習，例如使用特定網站的URL可以提升特定任務的性能，例如常識性問題解答或降低毒性生成。
MeCo設計選擇的消解和兼容性：研究證明MeCo與不同類型的元數據兼容，元數據的主要作用是按來源對文檔進行分類。

3. 團隊成員及背景

該論文的主要作者來自普林斯頓大學自然語言處理小組，包括博士生高天宇（一作，清華大學本科畢業，清華特獎獲得者）、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及教授陳丹琦。團隊成員在自然語言處理和機器學習領域擁有豐富的經驗。

4. 總結

MeCo方法通過巧妙地利用元數據，有效地提高了大模型預訓練的效率，并降低了訓練成本。這項研究為大模型的訓練和應用提供了新的思路，具有重要的學術意義和應用價值。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 低資源AI # 參數剪枝 # 模型壓縮 # 知識蒸餾 # 高效推理

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

陳丹琦團隊降本又來了：數據砍掉三分之一，性能卻完全不減

首次用元數據加速預訓練

陳丹琦團隊新研究：元數據加速大模型預訓練，數據量減少三分之一性能不減

1. MeCo方法的核心：元數據調節與冷卻

2. 實驗結果與貢獻

3. 團隊成員及背景

4. 總結

聯系作者

Sam Altman六字預言：AI奇點將近，是機遇還是危機？

RTX5090震撼發布，國行16499元起，黃仁勛「美國隊長」pose亮翻全場

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

陳丹琦團隊降本又來了：數據砍掉三分之一，性能卻完全不減

首次用元數據加速預訓練

陳丹琦團隊新研究：元數據加速大模型預訓練，數據量減少三分之一性能不減

1. MeCo方法的核心：元數據調節與冷卻

2. 實驗結果與貢獻

3. 團隊成員及背景

4. 總結

聯系作者

Sam Altman六字預言：AI奇點將近，是機遇還是危機？

RTX5090震撼發布，國行16499元起，黃仁勛「美國隊長」pose亮翻全場

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

陳丹琦團隊新研究：元數據加速大模型預訓練，數據量減少三分之一性能不減

Sam Altman六字預言：AI奇點將近，是機遇還是危機？

RTX5090震撼發布，國行16499元起，黃仁勛「美國隊長」pose亮翻全場