大模型訓練loss突刺原因和解決辦法
AIGC動態(tài)歡迎閱讀
原標題:大模型訓練loss突刺原因和解決辦法
關鍵字:梯度,模型,穩(wěn)態(tài),參數(shù),狀態(tài)
文章來源:算法邦
內(nèi)容字數(shù):9677字
內(nèi)容摘要:
直播預告 | 今晚7點,「自動駕駛新青年講座」第35講正式開講,LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive:大語言模型加持的閉環(huán)端到端自動駕駛框架》,歡迎掃名~原文鏈接:
https://zhuanlan.zhihu.com/p/675421518
最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練現(xiàn)loss spike的原因(loss 突然大幅度上漲),并介紹了一些可能的解決辦法。論文寫的非常精彩,但整體上有點散和深,我嘗試著站在工業(yè)立場上把它串一下
01突刺是什么首先介紹一下什么是loss spike:
loss spike指的是預訓練過程中,尤其容易在大模型(100B以上)預訓練過程現(xiàn)的loss突然暴漲的情況如圖所示模型訓練過程中紅框中突然上漲的loss尖峰
loss spike的現(xiàn)象會導致一系列的問題發(fā)生,譬如模型需要很長時間才能再次回到spike之前的狀態(tài)(論文中稱為pre-explosion)
原文鏈接:大模型訓練loss突刺原因和解決辦法
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章

暫無評論...