Adam有了mini版:內(nèi)存占用少一半,吞吐量提升50%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Adam有了mini版:內(nèi)存占用少一半,吞吐量提升50%
關(guān)鍵字:報(bào)告,參數(shù),模型,團(tuán)隊(duì),內(nèi)存
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:panda在訓(xùn)練大型語(yǔ)言模型(LLM)時(shí),Adam(W) 基本上已經(jīng)成為了人們默認(rèn)使用的優(yōu)化器。
Adam 盡管性能優(yōu)異,但使用成本很高。具體來(lái)說(shuō),Adam 需要內(nèi)存來(lái)保存其優(yōu)化器狀態(tài):一階動(dòng)量 m 和二階動(dòng)量 v^2。這總共需要模型大小至少 2 倍的內(nèi)存。這樣的內(nèi)存消耗已經(jīng)成為了 LLM 訓(xùn)練的一大主要負(fù)擔(dān)。
舉個(gè)例子,要訓(xùn)練一個(gè) 7B 模型,只是 Adam 就需要每張卡有大約 56 GB 來(lái)保存 m 和 v;而如果再加上梯度,則總共需要 86 GB。即使使用最先進(jìn)的 A100-80GB,成本也過(guò)高了。
為了支持這樣的高內(nèi)存算法,實(shí)踐中必須要使用 CPU 卸載與分片,但這又會(huì)增加延遲,減慢訓(xùn)練速度。在訓(xùn)練 PaLM (有 5400 億參數(shù))這樣的更大型模型時(shí),情況還會(huì)更糟。在這種情況下,Adam 自身就要占用超過(guò) 50 GB,并且這也是預(yù)訓(xùn)練階段的一大主要開(kāi)銷。
因此,人們希望設(shè)計(jì)出內(nèi)存需求更少又有效的優(yōu)化器。首先,減少內(nèi)存可以減輕 CPU 卸載的負(fù)擔(dān)并能減輕對(duì)模型參數(shù)執(zhí)行分片的需求。這些都能減少 GPU 和 CPU 之間的通信量,并進(jìn)一步提升訓(xùn)練過(guò)程的吞吐量和速
原文鏈接:Adam有了mini版:內(nèi)存占用少一半,吞吐量提升50%
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)