圖解大模型訓(xùn)練之:數(shù)據(jù)并行上篇(DP, DDP與ZeRO)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:圖解大模型訓(xùn)練之:數(shù)據(jù)并行上篇(DP, DDP與ZeRO)
關(guān)鍵字:梯度,通訊,數(shù)據(jù),模型,參數(shù)
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
GTIC 2024中國AI PC創(chuàng)新峰會(huì)將于10月11日,在2024上海國際消費(fèi)電子展TechG同期舉辦。聯(lián)想集團(tuán)首席研究員顏毅強(qiáng)、榮耀終端有限公司PC產(chǎn)品研發(fā)系統(tǒng)部部長席迎軍等7位嘉賓,將分別圍繞面向大模型的個(gè)人計(jì)算體系和交互、AI 重構(gòu)PC、RISC-V AI芯片、AIGC在端側(cè)產(chǎn)品的發(fā)展、操作系統(tǒng)與AI技術(shù)結(jié)合探索、聯(lián)合模型和硬件的優(yōu)化適配平臺(tái)MLGuider、智能體個(gè)人助理等議題進(jìn)行演講,歡迎報(bào)名~在上一篇的介紹中,我們介紹了以Google GPipe為代表的流水線并行范式。當(dāng)模型太大,一塊GPU放不下時(shí),流水線并行將模型的不同層放到不同的GPU上,通過切割mini-batch實(shí)現(xiàn)對(duì)訓(xùn)練數(shù)據(jù)的流水線處理,提升GPU計(jì)算通訊比。同時(shí)通過re-materialization機(jī)制降低顯存消耗。
但在實(shí)際應(yīng)用中,流水線并行并不特別流行,主要原因是模型能否均勻切割,影響了整體計(jì)算效率,這就需要算法工程師做手調(diào)。因此,今天我們來介紹一種應(yīng)用最廣泛,最易于理解的并行范式:數(shù)據(jù)并行。
數(shù)據(jù)并行的核心思想是:在各個(gè)GPU上都拷貝一份完整模型,各自吃一份數(shù)據(jù),算一份梯度,最后對(duì)梯度進(jìn)行累加來更新整
原文鏈接:圖解大模型訓(xùn)練之:數(shù)據(jù)并行上篇(DP, DDP與ZeRO)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: