避免訓練過程中損失回升

一行代碼提升大模型訓練效率
根據克雷西發自凹非寺量子位的報道,得州大學奧斯汀分校的四名華人學者提出了一種新的大模型訓練優化器——Cautious Optimizers。這一優化器通過簡單的一行代碼修改,使得大模型的訓練效率提升至1.47倍,同時確保訓練效果不受影響,適用于語言與視覺模型。
優化器的原理
Cautious Optimizers基于哈密頓量和下降動力學的理論,旨在加速訓練的同時保證收斂特性。在PyTorch中,只需增加一行代碼,通過引入掩蔽機制,避免參數更新方向與當前梯度方向相悖。具體來說,該機制通過內積判斷參數更新與梯度方向的一致性,確保在方向不一致時跳過更新,從而減少損失函數的回升風險。
顯著的訓練效率提升
研究者在600M至1B參數規模的Llama模型上進行了實驗,結果顯示Cautious Optimizers顯著提升了訓練效率。尤其在1B規模下,與原版AdamW和Lion相比,C-AdamW和C-Lion的樣本效率分別提高了47%和28%。同時,Cautious Optimizers在所有實驗中都表現出更低的困惑度,驗證了其優秀的泛化能力。
在下游任務中的表現
為評估模型的實際效果,研究者在6個GLUE下游任務中測試了C-AdamW的表現,結果顯示其平均得分比AdamW高出2%,大多數任務均取得進步,證明了該優化器的有效性。在視覺任務方面,Cautious Optimizers同樣表現出色,訓練MAE模型時,C-AdamW的最終重建誤差為0.5926,低于AdamW的0.6085。
研究團隊背景
該項目由Kaizhao Liang及其團隊共同打造,Liang是一名高級ML工程師,其他三位研究者均為得州大學奧斯汀分校的教授及博士生。研究成果已在GitHub上開源,提供詳細的使用說明。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號