Adam有了mini版:內(nèi)存占用少一半,吞吐量提升50%
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Adam有了mini版:內(nèi)存占用少一半,吞吐量提升50%
關(guān)鍵字:報告,參數(shù),模型,團隊,內(nèi)存
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機器之心報道
編輯:panda在訓(xùn)練大型語言模型(LLM)時,Adam(W) 基本上已經(jīng)成為了人們默認(rèn)使用的優(yōu)化器。
Adam 盡管性能優(yōu)異,但使用成本很高。具體來說,Adam 需要內(nèi)存來保存其優(yōu)化器狀態(tài):一階動量 m 和二階動量 v^2。這總共需要模型大小至少 2 倍的內(nèi)存。這樣的內(nèi)存消耗已經(jīng)成為了 LLM 訓(xùn)練的一大主要負(fù)擔(dān)。
舉個例子,要訓(xùn)練一個 7B 模型,只是 Adam 就需要每張卡有大約 56 GB 來保存 m 和 v;而如果再加上梯度,則總共需要 86 GB。即使使用最先進的 A100-80GB,成本也過高了。
為了支持這樣的高內(nèi)存算法,實踐中必須要使用 CPU 卸載與分片,但這又會增加延遲,減慢訓(xùn)練速度。在訓(xùn)練 PaLM (有 5400 億參數(shù))這樣的更大型模型時,情況還會更糟。在這種情況下,Adam 自身就要占用超過 50 GB,并且這也是預(yù)訓(xùn)練階段的一大主要開銷。
因此,人們希望設(shè)計出內(nèi)存需求更少又有效的優(yōu)化器。首先,減少內(nèi)存可以減輕 CPU 卸載的負(fù)擔(dān)并能減輕對模型參數(shù)執(zhí)行分片的需求。這些都能減少 GPU 和 CPU 之間的通信量,并進一步提升訓(xùn)練過程的吞吐量和速
原文鏈接:Adam有了mini版:內(nèi)存占用少一半,吞吐量提升50%
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺