AIGC動態歡迎閱讀
原標題:Adam有了mini版:內存占用少一半,吞吐量提升50%
關鍵字:報告,參數,模型,團隊,內存
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:panda在訓練大型語言模型(LLM)時,Adam(W) 基本上已經成為了人們默認使用的優化器。
Adam 盡管性能優異,但使用成本很高。具體來說,Adam 需要內存來保存其優化器狀態:一階動量 m 和二階動量 v^2。這總共需要模型大小至少 2 倍的內存。這樣的內存消耗已經成為了 LLM 訓練的一大主要負擔。
舉個例子,要訓練一個 7B 模型,只是 Adam 就需要每張卡有大約 56 GB 來保存 m 和 v;而如果再加上梯度,則總共需要 86 GB。即使使用最先進的 A100-80GB,成本也過高了。
為了支持這樣的高內存算法,實踐中必須要使用 CPU 卸載與分片,但這又會增加延遲,減慢訓練速度。在訓練 PaLM (有 5400 億參數)這樣的更大型模型時,情況還會更糟。在這種情況下,Adam 自身就要占用超過 50 GB,并且這也是預訓練階段的一大主要開銷。
因此,人們希望設計出內存需求更少又有效的優化器。首先,減少內存可以減輕 CPU 卸載的負擔并能減輕對模型參數執行分片的需求。這些都能減少 GPU 和 CPU 之間的通信量,并進一步提升訓練過程的吞吐量和速
原文鏈接:Adam有了mini版:內存占用少一半,吞吐量提升50%
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...