AIGC動態歡迎閱讀
原標題:一行代碼訓練成本再降30%,AI大模型混合精度訓練再升級|開源
關鍵字:報告,精度,模型,張量,矩陣
文章來源:量子位
內容字數:0字
內容摘要:
允中 發自 凹非寺量子位 | 公眾號 QbitAIFP8通過其獨特的數值表示方式,能夠在保持一定精度的同時,在大模型訓練中提高訓練速度、節省內存占用,最終降低訓練成本。
AI大模型開發系統Colossal-AI的混合精度訓練再度升級,支持主流的BF16(O2) + FP8(O1)的新一代混合精度訓練方案。
僅需一行代碼,即可對主流LLM模型能夠獲得平均30%的加速效果,降低相應大模型開發成本,并保證訓練收斂性。
無需引入額外的手寫CUDA算子,避免了較長的AOT編譯時間和復雜的編譯環境配置。
開源地址:https://github.com/hpcaitech/ColossalAI
FP8混合精度訓練低精度計算一直是GPU硬件發展趨勢。
從最早的FP32,到目前通用的FP16/BF16,再到Hopper系列芯片(H100, H200, H800等)支持的FP8,低精度計算速度越來越快,所需的內存也越來越低,非常符合大模型時代對硬件的需求。
目前FP8混合精度訓練影響訓練結果的最大因素就是scaling方案,常見的方案有兩種:
延遲scaling
實時scaling
延遲scaling采用
原文鏈接:一行代碼訓練成本再降30%,AI大模型混合精度訓練再升級|開源
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...