Llama3訓(xùn)練每3小時(shí)崩一次？豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Llama3訓(xùn)練每3小時(shí)崩一次？豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效
關(guān)鍵字：字節(jié)跳動(dòng),張量,切分,模型,性能
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心發(fā)布
機(jī)器之心編輯部伴隨大模型迭代速度越來越快，訓(xùn)練集群規(guī)模越來越大，高頻率的軟硬件故障已經(jīng)成為阻礙訓(xùn)練效率進(jìn)一步提高的痛點(diǎn)，檢查點(diǎn)（Checkpoint）系統(tǒng)在訓(xùn)練過程中負(fù)責(zé)狀態(tài)的存儲(chǔ)和恢復(fù)，已經(jīng)成為克服訓(xùn)練故障、保障訓(xùn)練進(jìn)度和提高訓(xùn)練效率的關(guān)鍵。近日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)與香港大合提出了 ByteCheckpoint。這是一個(gè) PyTorch 原生，兼容多個(gè)訓(xùn)練框架，支持 Checkpoint 的高效讀寫和自動(dòng)重新切分的大模型 Checkpointing 系統(tǒng)，相比現(xiàn)有方法有顯著性能提升和易用性優(yōu)勢(shì)。本文介紹了大模型訓(xùn)練提效中 Checkpoint 方向面臨的挑戰(zhàn)，總結(jié) ByteCheckpoint 的解決思路、系統(tǒng)設(shè)計(jì)、I/O 性能優(yōu)化技術(shù)，以及在存儲(chǔ)性能和讀取性能測(cè)試的實(shí)驗(yàn)結(jié)果。Meta 官方最近披露了在 16384 塊 H100 80GB 訓(xùn)練集群上進(jìn)行 Llama3 405B 訓(xùn)練的故障率 —— 短短 54 天，發(fā)生 419 次中斷，平均每三小時(shí)崩潰一次，引來不少從業(yè)者關(guān)注。
正如業(yè)內(nèi)一句常言，大型訓(xùn)練系統(tǒng)唯一確定的，便是軟硬件故障。隨著訓(xùn)練規(guī)模與模型大小的日

原文鏈接：Llama3訓(xùn)練每3小時(shí)崩一次？豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效