圖解大模型訓(xùn)練之：數(shù)據(jù)并行上篇(DP, DDP與ZeRO)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：圖解大模型訓(xùn)練之：數(shù)據(jù)并行上篇(DP, DDP與ZeRO)
關(guān)鍵字：梯度,通訊,數(shù)據(jù),模型,參數(shù)
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

GTIC 2024中國AI PC創(chuàng)新峰會(huì)將于10月11日，在2024上海國際消費(fèi)電子展TechG同期舉辦。聯(lián)想集團(tuán)首席研究員顏毅強(qiáng)、榮耀終端有限公司PC產(chǎn)品研發(fā)系統(tǒng)部部長席迎軍等7位嘉賓，將分別圍繞面向大模型的個(gè)人計(jì)算體系和交互、AI 重構(gòu)PC、RISC-V AI芯片、AIGC在端側(cè)產(chǎn)品的發(fā)展、操作系統(tǒng)與AI技術(shù)結(jié)合探索、聯(lián)合模型和硬件的優(yōu)化適配平臺(tái)MLGuider、智能體個(gè)人助理等議題進(jìn)行演講，歡迎報(bào)名～在上一篇的介紹中，我們介紹了以Google GPipe為代表的流水線并行范式。當(dāng)模型太大，一塊GPU放不下時(shí)，流水線并行將模型的不同層放到不同的GPU上，通過切割mini-batch實(shí)現(xiàn)對(duì)訓(xùn)練數(shù)據(jù)的流水線處理，提升GPU計(jì)算通訊比。同時(shí)通過re-materialization機(jī)制降低顯存消耗。
但在實(shí)際應(yīng)用中，流水線并行并不特別流行，主要原因是模型能否均勻切割，影響了整體計(jì)算效率，這就需要算法工程師做手調(diào)。因此，今天我們來介紹一種應(yīng)用最廣泛，最易于理解的并行范式：數(shù)據(jù)并行。
數(shù)據(jù)并行的核心思想是：在各個(gè)GPU上都拷貝一份完整模型，各自吃一份數(shù)據(jù)，算一份梯度，最后對(duì)梯度進(jìn)行累加來更新整

原文鏈接：圖解大模型訓(xùn)練之：數(shù)據(jù)并行上篇(DP, DDP與ZeRO)