AIGC動態歡迎閱讀
原標題:字節萬卡集群技術細節公開:2天搞定GPT-3訓練,算力利用率超英偉達Megatron-LM
關鍵字:騰訊,字節跳動,模型,集群,字節
文章來源:量子位
內容字數:4070字
內容摘要:
魚羊 發自 凹非寺量子位 | 公眾號 QbitAI隨著對Sora技術分析的展開,AI基礎設施的重要性愈發凸顯。
來自字節和北大的一篇新論文在此時吸引關注:
文章披露,字節搭建起的萬卡集群,能在1.75天內完成GPT-3規模模型(175B)的訓練。
具體來說,字節提出了一個名為MegaScale的生產系統,旨在解決在萬卡集群上訓練大模型時面臨的效率和穩定性挑戰。
在12288塊GPU上訓練1750億參數大語言模型時,MegaScale實現了55.2%的算力利用率(MFU),是英偉達Megatron-LM的1.34倍。
論文還透露,截止2023年9月,字節已建立起超過1萬張卡的Ampere架構GPU(A100/A800)集群,目前正在建設大規模Hopper架構(H100/H800)集群。
適用于萬卡集群的生產系統大模型時代,GPU的重要性已無需贅述。
但大模型的訓練,并不是把卡的數量拉滿就能直接開干的——當GPU集群的規模來到“萬”字級別,如何實現高效、穩定的訓練,本身就是一個頗具挑戰的工程問題。
第一重挑戰:效率。
訓練大語言模型并非簡單的并行任務,需要在多個GPU之間分布模型,并且這些
原文鏈接:字節萬卡集群技術細節公開:2天搞定GPT-3訓練,算力利用率超英偉達Megatron-LM
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...