Llama3訓(xùn)練每3小時(shí)崩一次?豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Llama3訓(xùn)練每3小時(shí)崩一次?豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效
關(guān)鍵字:字節(jié)跳動(dòng),張量,切分,模型,性能
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部伴隨大模型迭代速度越來越快,訓(xùn)練集群規(guī)模越來越大,高頻率的軟硬件故障已經(jīng)成為阻礙訓(xùn)練效率進(jìn)一步提高的痛點(diǎn),檢查點(diǎn)(Checkpoint)系統(tǒng)在訓(xùn)練過程中負(fù)責(zé)狀態(tài)的存儲(chǔ)和恢復(fù),已經(jīng)成為克服訓(xùn)練故障、保障訓(xùn)練進(jìn)度和提高訓(xùn)練效率的關(guān)鍵。近日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)與香港大合提出了 ByteCheckpoint。這是一個(gè) PyTorch 原生,兼容多個(gè)訓(xùn)練框架,支持 Checkpoint 的高效讀寫和自動(dòng)重新切分的大模型 Checkpointing 系統(tǒng),相比現(xiàn)有方法有顯著性能提升和易用性優(yōu)勢(shì)。本文介紹了大模型訓(xùn)練提效中 Checkpoint 方向面臨的挑戰(zhàn),總結(jié) ByteCheckpoint 的解決思路、系統(tǒng)設(shè)計(jì)、I/O 性能優(yōu)化技術(shù),以及在存儲(chǔ)性能和讀取性能測(cè)試的實(shí)驗(yàn)結(jié)果。Meta 官方最近披露了在 16384 塊 H100 80GB 訓(xùn)練集群上進(jìn)行 Llama3 405B 訓(xùn)練的故障率 —— 短短 54 天,發(fā)生 419 次中斷,平均每三小時(shí)崩潰一次,引來不少從業(yè)者關(guān)注。
正如業(yè)內(nèi)一句常言,大型訓(xùn)練系統(tǒng)唯一確定的,便是軟硬件故障。隨著訓(xùn)練規(guī)模與模型大小的日
原文鏈接:Llama3訓(xùn)練每3小時(shí)崩一次?豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: