Adam有了mini版：內(nèi)存占用少一半，吞吐量提升50%

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Adam有了mini版：內(nèi)存占用少一半，吞吐量提升50%
關(guān)鍵字：報(bào)告,參數(shù),模型,團(tuán)隊(duì),內(nèi)存
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：panda在訓(xùn)練大型語(yǔ)言模型（LLM）時(shí)，Adam(W) 基本上已經(jīng)成為了人們默認(rèn)使用的優(yōu)化器。
Adam 盡管性能優(yōu)異，但使用成本很高。具體來(lái)說(shuō)，Adam 需要內(nèi)存來(lái)保存其優(yōu)化器狀態(tài)：一階動(dòng)量 m 和二階動(dòng)量 v^2。這總共需要模型大小至少 2 倍的內(nèi)存。這樣的內(nèi)存消耗已經(jīng)成為了 LLM 訓(xùn)練的一大主要負(fù)擔(dān)。
舉個(gè)例子，要訓(xùn)練一個(gè) 7B 模型，只是 Adam 就需要每張卡有大約 56 GB 來(lái)保存 m 和 v；而如果再加上梯度，則總共需要 86 GB。即使使用最先進(jìn)的 A100-80GB，成本也過(guò)高了。
為了支持這樣的高內(nèi)存算法，實(shí)踐中必須要使用 CPU 卸載與分片，但這又會(huì)增加延遲，減慢訓(xùn)練速度。在訓(xùn)練 PaLM （有 5400 億參數(shù)）這樣的更大型模型時(shí)，情況還會(huì)更糟。在這種情況下，Adam 自身就要占用超過(guò) 50 GB，并且這也是預(yù)訓(xùn)練階段的一大主要開(kāi)銷。
因此，人們希望設(shè)計(jì)出內(nèi)存需求更少又有效的優(yōu)化器。首先，減少內(nèi)存可以減輕 CPU 卸載的負(fù)擔(dān)并能減輕對(duì)模型參數(shù)執(zhí)行分片的需求。這些都能減少 GPU 和 CPU 之間的通信量，并進(jìn)一步提升訓(xùn)練過(guò)程的吞吐量和速

原文鏈接：Adam有了mini版：內(nèi)存占用少一半，吞吐量提升50%