突破極限：華人團(tuán)隊(duì)一行代碼助力Llama訓(xùn)練速度飆升至1.47倍！

避免訓(xùn)練過程中損失回升

原標(biāo)題：1行代碼改進(jìn)大模型訓(xùn)練，Llama訓(xùn)練速度提升至1.47倍，全華人團(tuán)隊(duì)出品
文章來源：量子位
內(nèi)容字?jǐn)?shù)：3170字

一行代碼提升大模型訓(xùn)練效率

根據(jù)克雷西發(fā)自凹非寺量子位的報(bào)道，得州大學(xué)奧斯汀分校的四名華人學(xué)者提出了一種新的大模型訓(xùn)練優(yōu)化器——Cautious Optimizers。這一優(yōu)化器通過簡單的一行代碼修改，使得大模型的訓(xùn)練效率提升至1.47倍，同時(shí)確保訓(xùn)練效果不受影響，適用于語言與視覺模型。

優(yōu)化器的原理

Cautious Optimizers基于哈密頓量和下降動力學(xué)的理論，旨在加速訓(xùn)練的同時(shí)保證收斂特性。在PyTorch中，只需增加一行代碼，通過引入掩蔽機(jī)制，避免參數(shù)更新方向與當(dāng)前梯度方向相悖。具體來說，該機(jī)制通過內(nèi)積判斷參數(shù)更新與梯度方向的一致性，確保在方向不一致時(shí)跳過更新，從而減少損失函數(shù)的回升風(fēng)險(xiǎn)。

顯著的訓(xùn)練效率提升

研究者在600M至1B參數(shù)規(guī)模的Llama模型上進(jìn)行了實(shí)驗(yàn)，結(jié)果顯示Cautious Optimizers顯著提升了訓(xùn)練效率。尤其在1B規(guī)模下，與原版AdamW和Lion相比，C-AdamW和C-Lion的樣本效率分別提高了47%和28%。同時(shí)，Cautious Optimizers在所有實(shí)驗(yàn)中都表現(xiàn)出更低的困惑度，驗(yàn)證了其優(yōu)秀的泛化能力。

在下游任務(wù)中的表現(xiàn)

為評估模型的實(shí)際效果，研究者在6個(gè)GLUE下游任務(wù)中測試了C-AdamW的表現(xiàn)，結(jié)果顯示其平均得分比AdamW高出2%，大多數(shù)任務(wù)均取得進(jìn)步，證明了該優(yōu)化器的有效性。在視覺任務(wù)方面，Cautious Optimizers同樣表現(xiàn)出色，訓(xùn)練MAE模型時(shí)，C-AdamW的最終重建誤差為0.5926，低于AdamW的0.6085。

研究團(tuán)隊(duì)背景

該項(xiàng)目由Kaizhao Liang及其團(tuán)隊(duì)共同打造，Liang是一名高級ML工程師，其他三位研究者均為得州大學(xué)奧斯汀分校的教授及博士生。研究成果已在GitHub上開源，提供詳細(xì)的使用說明。

論文地址與代碼庫鏈接為：論文和 GitHub。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動態(tài)# Llama訓(xùn)練 # 人工智能行業(yè)# 全華人團(tuán)隊(duì)# 大模型訓(xùn)練 # 訓(xùn)練速度提升

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

突破極限：華人團(tuán)隊(duì)一行代碼助力Llama訓(xùn)練速度飆升至1.47倍！

避免訓(xùn)練過程中損失回升

一行代碼提升大模型訓(xùn)練效率

優(yōu)化器的原理

顯著的訓(xùn)練效率提升

在下游任務(wù)中的表現(xiàn)

研究團(tuán)隊(duì)背景

聯(lián)系作者

從“提詞狂魔”到創(chuàng)新引領(lǐng)者：未來開發(fā)者的核心競爭力新探討

AI科學(xué)家崛起：全球?qū)嶒?yàn)室的未來將如何被顛覆？

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)