千卡規模訓練算力利用率達 60%，螞蟻開源分布式訓練加速擴展庫 ATorch

AIGC動態2年前 (2024)發布 AI科技評論

AIGC動態歡迎閱讀

原標題：千卡規模訓練算力利用率達 60%，螞蟻開源分布式訓練加速擴展庫 ATorch
關鍵字：模型,分布式,策略,高效,參數
文章來源：AI科技評論
內容字數：4083字

內容摘要：

近日，螞蟻集團宣布開源大模型分布式訓練加速擴展庫ATorch。ATorch可針對不同模型和硬件資源，實現深度學習自動資源動態優化和分布式訓練穩定性提升，可幫助優化深度學習的智能性，解決大模型訓練的提效問題。據了解，ATorch大模型訓練算力利用率可達60%，對于千億模型千卡級訓練提效非常友好，相當于為跑車裝上了強勁的引擎。
Meta開源的 PyTorch和谷歌開源的TensorFlow，是最受開發者歡迎的兩大深度學習框架。憑借其簡單易用、功能強大、用途廣泛等特點，開發者和研究人員可以輕松的構建和訓練模型。隨著生成式大模型的爆發，模型訓練的數據集和參數規模成指數級增長。要帶動如此龐然大物，并且滿足模型的快速迭代，分布式訓練就成為了解題之道。本次螞蟻開源的ATorch針對于大模型訓練場景，提供了基于 PyTorch 的高性能解決方案。1為跑車裝上強勁引擎2023年上半年，螞蟻集團開源了DLRover項目，這是基于云原生技術打造的智能分布式深度學習系統，相當于為一輛跑車提供了自動駕駛系統。那么如何讓跑車跑得更快呢？螞蟻開發了基于PyTorch的分布式訓練加速擴展庫ATorch，并且集成到DL

原文鏈接：千卡規模訓練算力利用率達 60%，螞蟻開源分布式訓練加速擴展庫 ATorch