AIGC動態歡迎閱讀
原標題:Yandex 開源?LLM 訓練工具,可節省高達?20% 的?GPU 資源
關鍵字:華為,小米,字節跳動,模型,通信
文章來源:AI前線
內容字數:0字
內容摘要:
2024 年 6 月 11 日,莫斯科跨國科技公司 Yandex 最近推出了一種用于訓練大型語言模型 (LLM) 的開源方法 YaFSDP, 用于增強 GPU 通信并減少 LLM 訓練中的內存使用量。
LLM 訓練依賴于組織成集群的大量 GPU,互連的圖形處理器陣列可以執行訓練具有數十億個參數的模型所需的大量計算。在集群中的處理器之間分配計算需要不斷通信,這通常會成為“瓶頸”,減慢訓練過程并導致計算能力的低效使用。
為了克服這一瓶頸,Yandex 開發人員創建了 YaFSDP,來改善 GPU 通信并優化學習速度和性能的方法。
YaFSDP 的工作原理是消除 GPU 通信效率低下的問題,從而優化網絡使用率并減少內存負載。它確保訓練時只需要必要的處理器內存,并使 GPU 交互不間斷,從而促進進一步的優化,例如最大限度地減少處理器通信時間。這可以顯著提高性能和內存效率。
YaFSDP 是 FSDP 的增強版,在 LLM 訓練中最耗通信的階段(如預訓練、對齊和微調)中,其表現優于 FSDP (Fully Sharded Data Parallel,全切片數據并行)方法。
官方表示,與 FSDP
原文鏈接:Yandex 開源?LLM 訓練工具,可節省高達?20% 的?GPU 資源
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...