AIGC動態歡迎閱讀
原標題:千卡規模訓練算力利用率達 60%,螞蟻開源分布式訓練加速擴展庫 ATorch
關鍵字:模型,分布式,策略,高效,參數
文章來源:AI科技評論
內容字數:4083字
內容摘要:
近日,螞蟻集團宣布開源大模型分布式訓練加速擴展庫ATorch。ATorch可針對不同模型和硬件資源,實現深度學習自動資源動態優化和分布式訓練穩定性提升,可幫助優化深度學習的智能性,解決大模型訓練的提效問題。據了解,ATorch大模型訓練算力利用率可達60%,對于千億模型千卡級訓練提效非常友好,相當于為跑車裝上了強勁的引擎。
Meta開源的 PyTorch和谷歌開源的TensorFlow,是最受開發者歡迎的兩大深度學習框架。憑借其簡單易用、功能強大、用途廣泛等特點,開發者和研究人員可以輕松的構建和訓練模型。隨著生成式大模型的爆發,模型訓練的數據集和參數規模成指數級增長。要帶動如此龐然大物,并且滿足模型的快速迭代,分布式訓練就成為了解題之道。本次螞蟻開源的ATorch針對于大模型訓練場景,提供了基于 PyTorch 的高性能解決方案。1為跑車裝上強勁引擎2023年上半年,螞蟻集團開源了DLRover項目,這是基于云原生技術打造的智能分布式深度學習系統,相當于為一輛跑車提供了自動駕駛系統。那么如何讓跑車跑得更快呢?螞蟻開發了基于PyTorch的分布式訓練加速擴展庫ATorch,并且集成到DL
原文鏈接:千卡規模訓練算力利用率達 60%,螞蟻開源分布式訓練加速擴展庫 ATorch
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...