AIGC動態歡迎閱讀
原標題:圖解大模型訓練之:流水線并行,以GPipe為例
關鍵字:模型,流水線,表示,大小,復雜度
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
回顧ChatGPT的發展歷程,我們可以總結出大語言模型(LLM)取得驚艷效果的要點(重要性從高到低排序):
愿意燒錢,且接受“燒錢 != 好模型”的現實
高質量的訓練語料
高效的分布式訓練框架和充沛優質的硬件資源
算法的迭代創新
在大模型訓練這個系列里,我們將一起探索學習幾種經典的分布式并行范式,包括流水線并行(Pipeline Parallelism),數據并行(Data Parallelism)和張量并行(Tensor Parallesim)。微軟開源的分布式訓練框架FastSpeed,融合了這三種并行范式,開發出3D并行的框架,實現了千億級別模型參數的訓練。
本篇文章將探索流水線并行,經典的流水線并行范式有Google推出的Gpipe,和微軟推出的PipeDream。兩者的推出時間都在2019年左右,大體設計框架一致。主要差別為:在梯度更新上,Gpipe是同步的,PipeDream是異步的。異步方法更進一步降低了GPU的空轉時間比。雖然PipeDream設計更精妙些,但是Gpipe因為其“夠用”和淺顯易懂,更受大眾歡迎(torch的PP接口就基于Gpipe)。因此本文以Gpipe
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...