<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

        AIGC動態1年前 (2024)發布 量子位
        384 0 0

        Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

        AIGC動態歡迎閱讀

        原標題:Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量
        關鍵字:集群,故障,問題,團隊,模型
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAI每3個小時1次、平均1天8次,Llama 3.1 405B預訓練老出故障,H100是罪魁禍首?
        最近有人從Meta發布的92頁超長Llama 3.1論文中發現了華點:
        Llama 3.1在為期54天的預訓練期間,經歷了共466次任務中斷。其中只有47次是計劃內的,419次純屬意外,意外中78%已確認或懷疑是硬件問題導致。
        而且GPU問題最嚴重,占了58.7%。
        Llama 3.1 405模型是在一個含16384塊Nvidia H100 80GB GPU集群上進行訓練的。雖說針對大規模系統有句老話:唯一確定的就是會出故障。
        但這一問題還是引起不少網友關注。
        放慢速度,check一下產品吧。
        老出故障,咋整?具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次(17.2%)可以具體到是由HBM3內存故障引起。
        鑒于H100的700W高功耗和熱應力,出現這樣的結果也并不意外。
        有意思的是,54天內只有兩次是CPU出現了故障。
        除了GPU外的另一半故障由眾多因素導致,比如軟件Bug、網


        原文鏈接:Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费国产污网站在线观看| 午夜亚洲www湿好大| 黄页网址大全免费观看12网站| 91成人免费观看| 久久精品国产亚洲av麻豆小说| 中文字幕日本人妻久久久免费| 国产AV无码专区亚洲Av| 暖暖在线视频免费视频| 91亚洲精品第一综合不卡播放| 精品无码国产污污污免费网站 | 亚洲乱码日产精品a级毛片久久 | 亚洲国产精品无码久久| 免费精品一区二区三区在线观看| 亚洲中文无码mv| 日韩精品成人亚洲专区| 亚洲AV色香蕉一区二区| 69视频在线是免费观看| 亚洲中字慕日产2020| 国产一级一片免费播放| 久久久久久久国产免费看| 亚洲五月六月丁香激情| 成人免费无毒在线观看网站| 国产精品亚洲一区二区三区| 亚洲人色婷婷成人网站在线观看| 三年片在线观看免费观看大全动漫| 亚洲不卡视频在线观看| 国产一区二区视频免费| 久久久久免费精品国产| 亚洲图片中文字幕| 亚洲国产成人精品91久久久| 亚洲欧美国产国产一区二区三区 | 精品无码无人网站免费视频| 亚洲AV无码一区二区大桥未久| 亚洲精品NV久久久久久久久久| 久久国产乱子免费精品| 亚洲欧美日韩中文高清www777| 亚洲中文久久精品无码ww16| 免费看国产成年无码AV片| 亚美影视免费在线观看| 国产一级一片免费播放| 高清一区二区三区免费视频|