圖解大模型訓(xùn)練之:流水線并行,以GPipe為例
AIGC動態(tài)歡迎閱讀
原標(biāo)題:圖解大模型訓(xùn)練之:流水線并行,以GPipe為例
關(guān)鍵字:模型,流水線,表示,大小,復(fù)雜度
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
回顧ChatGPT的發(fā)展歷程,我們可以總結(jié)出大語言模型(LLM)取得驚艷效果的要點(重要性從高到低排序):
愿意燒錢,且接受“燒錢 != 好模型”的現(xiàn)實
高質(zhì)量的訓(xùn)練語料
高效的分布式訓(xùn)練框架和充沛優(yōu)質(zhì)的硬件資源
算法的迭代創(chuàng)新
在大模型訓(xùn)練這個系列里,我們將一起探索學(xué)習(xí)幾種經(jīng)典的分布式并行范式,包括流水線并行(Pipeline Parallelism),數(shù)據(jù)并行(Data Parallelism)和張量并行(Tensor Parallesim)。微軟開源的分布式訓(xùn)練框架FastSpeed,融合了這三種并行范式,開發(fā)出3D并行的框架,實現(xiàn)了千億級別模型參數(shù)的訓(xùn)練。
本篇文章將探索流水線并行,經(jīng)典的流水線并行范式有Google推出的Gpipe,和微軟推出的PipeDream。兩者的推出時間都在2019年左右,大體設(shè)計框架一致。主要差別為:在梯度更新上,Gpipe是同步的,PipeDream是異步的。異步方法更進(jìn)一步降低了GPU的空轉(zhuǎn)時間比。雖然PipeDream設(shè)計更精妙些,但是Gpipe因為其“夠用”和淺顯易懂,更受大眾歡迎(torch的PP接口就基于Gpipe)。因此本文以Gpipe
原文鏈接:圖解大模型訓(xùn)練之:流水線并行,以GPipe為例
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
相關(guān)文章
