突破極限:華人團(tuán)隊(duì)一行代碼助力Llama訓(xùn)練速度飆升至1.47倍!
避免訓(xùn)練過程中損失回升
原標(biāo)題:1行代碼改進(jìn)大模型訓(xùn)練,Llama訓(xùn)練速度提升至1.47倍,全華人團(tuán)隊(duì)出品
文章來源:量子位
內(nèi)容字?jǐn)?shù):3170字
一行代碼提升大模型訓(xùn)練效率
根據(jù)克雷西發(fā)自凹非寺量子位的報(bào)道,得州大學(xué)奧斯汀分校的四名華人學(xué)者提出了一種新的大模型訓(xùn)練優(yōu)化器——Cautious Optimizers。這一優(yōu)化器通過簡單的一行代碼修改,使得大模型的訓(xùn)練效率提升至1.47倍,同時(shí)確保訓(xùn)練效果不受影響,適用于語言與視覺模型。
優(yōu)化器的原理
Cautious Optimizers基于哈密頓量和下降動力學(xué)的理論,旨在加速訓(xùn)練的同時(shí)保證收斂特性。在PyTorch中,只需增加一行代碼,通過引入掩蔽機(jī)制,避免參數(shù)更新方向與當(dāng)前梯度方向相悖。具體來說,該機(jī)制通過內(nèi)積判斷參數(shù)更新與梯度方向的一致性,確保在方向不一致時(shí)跳過更新,從而減少損失函數(shù)的回升風(fēng)險(xiǎn)。
顯著的訓(xùn)練效率提升
研究者在600M至1B參數(shù)規(guī)模的Llama模型上進(jìn)行了實(shí)驗(yàn),結(jié)果顯示Cautious Optimizers顯著提升了訓(xùn)練效率。尤其在1B規(guī)模下,與原版AdamW和Lion相比,C-AdamW和C-Lion的樣本效率分別提高了47%和28%。同時(shí),Cautious Optimizers在所有實(shí)驗(yàn)中都表現(xiàn)出更低的困惑度,驗(yàn)證了其優(yōu)秀的泛化能力。
在下游任務(wù)中的表現(xiàn)
為評估模型的實(shí)際效果,研究者在6個(gè)GLUE下游任務(wù)中測試了C-AdamW的表現(xiàn),結(jié)果顯示其平均得分比AdamW高出2%,大多數(shù)任務(wù)均取得進(jìn)步,證明了該優(yōu)化器的有效性。在視覺任務(wù)方面,Cautious Optimizers同樣表現(xiàn)出色,訓(xùn)練MAE模型時(shí),C-AdamW的最終重建誤差為0.5926,低于AdamW的0.6085。
研究團(tuán)隊(duì)背景
該項(xiàng)目由Kaizhao Liang及其團(tuán)隊(duì)共同打造,Liang是一名高級ML工程師,其他三位研究者均為得州大學(xué)奧斯汀分校的教授及博士生。研究成果已在GitHub上開源,提供詳細(xì)的使用說明。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破