大模型訓練loss突刺原因和解決辦法

AIGC動態(tài)1年前 (2024)發(fā)布算法邦

大模型訓練loss突刺原因和解決辦法

AIGC動態(tài)歡迎閱讀

原標題：大模型訓練loss突刺原因和解決辦法
關鍵字：梯度,模型,穩(wěn)態(tài),參數(shù),狀態(tài)
文章來源：算法邦
內(nèi)容字數(shù)：9677字

內(nèi)容摘要：

直播預告 | 今晚7點，「自動駕駛新青年講座」第35講正式開講，LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive：大語言模型加持的閉環(huán)端到端自動駕駛框架》，歡迎掃名~原文鏈接:
https://zhuanlan.zhihu.com/p/675421518
最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練現(xiàn)loss spike的原因(loss 突然大幅度上漲)，并介紹了一些可能的解決辦法。論文寫的非常精彩，但整體上有點散和深，我嘗試著站在工業(yè)立場上把它串一下
01突刺是什么首先介紹一下什么是loss spike：
loss spike指的是預訓練過程中，尤其容易在大模型（100B以上）預訓練過程現(xiàn)的loss突然暴漲的情況如圖所示模型訓練過程中紅框中突然上漲的loss尖峰
loss spike的現(xiàn)象會導致一系列的問題發(fā)生，譬如模型需要很長時間才能再次回到spike之前的狀態(tài)（論文中稱為pre-explosion）

原文鏈接：大模型訓練loss突刺原因和解決辦法