一行代碼訓(xùn)練成本再降30%,AI大模型混合精度訓(xùn)練再升級(jí)|開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一行代碼訓(xùn)練成本再降30%,AI大模型混合精度訓(xùn)練再升級(jí)|開源
關(guān)鍵字:報(bào)告,精度,模型,張量,矩陣
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIFP8通過其獨(dú)特的數(shù)值表示方式,能夠在保持一定精度的同時(shí),在大模型訓(xùn)練中提高訓(xùn)練速度、節(jié)省內(nèi)存占用,最終降低訓(xùn)練成本。
AI大模型開發(fā)系統(tǒng)Colossal-AI的混合精度訓(xùn)練再度升級(jí),支持主流的BF16(O2) + FP8(O1)的新一代混合精度訓(xùn)練方案。
僅需一行代碼,即可對(duì)主流LLM模型能夠獲得平均30%的加速效果,降低相應(yīng)大模型開發(fā)成本,并保證訓(xùn)練收斂性。
無需引入額外的手寫CUDA算子,避免了較長(zhǎng)的AOT編譯時(shí)間和復(fù)雜的編譯環(huán)境配置。
開源地址:https://github.com/hpcaitech/ColossalAI
FP8混合精度訓(xùn)練低精度計(jì)算一直是GPU硬件發(fā)展趨勢(shì)。
從最早的FP32,到目前通用的FP16/BF16,再到Hopper系列芯片(H100, H200, H800等)支持的FP8,低精度計(jì)算速度越來越快,所需的內(nèi)存也越來越低,非常符合大模型時(shí)代對(duì)硬件的需求。
目前FP8混合精度訓(xùn)練影響訓(xùn)練結(jié)果的最大因素就是scaling方案,常見的方案有兩種:
延遲scaling
實(shí)時(shí)scaling
延遲scaling采用
原文鏈接:一行代碼訓(xùn)練成本再降30%,AI大模型混合精度訓(xùn)練再升級(jí)|開源
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介: