從啥也不會(huì)到DeepSpeed————一篇大模型分布式訓(xùn)練的學(xué)習(xí)過程總結(jié)

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：從啥也不會(huì)到DeepSpeed————一篇大模型分布式訓(xùn)練的學(xué)習(xí)過程總結(jié)
關(guān)鍵字：解讀,模型,參數(shù),梯度,顯存
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：22701字

內(nèi)容摘要：

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會(huì)，愛詩科技創(chuàng)始人王長虎，啟明創(chuàng)投合伙人周志峰，Open-Sora開發(fā)團(tuán)隊(duì)潞晨科技創(chuàng)始人尤洋，「清華系Sora」生數(shù)科技CEO唐家渝，萬興科技副總裁朱偉，優(yōu)必選研究院執(zhí)行院長焦繼超等40+位嘉賓已確認(rèn)帶來演講和報(bào)告，歡迎報(bào)名。導(dǎo)讀本文轉(zhuǎn)載自公眾號(hào)：關(guān)于NLP那些你不知道的事，原文來自知乎，作者為elihe，本文是作者對(duì)分布式訓(xùn)練的學(xué)習(xí)過程總結(jié)，作為循序漸進(jìn)學(xué)習(xí)分布式訓(xùn)練的總結(jié)。
原文鏈接：https://zhuanlan.zhihu.com/p/688873027
本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。為什么我要寫這個(gè)？
系統(tǒng)化的學(xué)模型，除了知道大模型是什么，也得知道大模型是如何訓(xùn)練的，對(duì)大模型的實(shí)際應(yīng)用有更加定量的認(rèn)知，該文章也算是一篇分布式訓(xùn)練的學(xué)習(xí)過程總結(jié)，作為循序漸進(jìn)學(xué)習(xí)分布式訓(xùn)練的總結(jié)。
類似之前寫過的LLM文章，本文也建議讀者先定性有個(gè)宏觀認(rèn)知，然后再細(xì)化到某個(gè)概念定量了解，遇到不太清楚的概念深度遞歸去學(xué)習(xí)
01這為什么需要分布式訓(xùn)練？主要有兩點(diǎn)：
對(duì)小模型而言訓(xùn)練速度更快
對(duì)大模型而言，其所

原文鏈接：從啥也不會(huì)到DeepSpeed————一篇大模型分布式訓(xùn)練的學(xué)習(xí)過程總結(jié)