FP8 低精度訓練:Transformer Engine 簡析
AIGC動態(tài)歡迎閱讀
原標題:FP8 低精度訓練:Transformer Engine 簡析
關(guān)鍵字:精度,模型,數(shù)據(jù),數(shù)值,框架
文章來源:智猩猩AGI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
大模型時代最火AI芯片峰會來啦!!9月6-7日,由智猩猩聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數(shù)據(jù)中心AI芯片、智算集群技術(shù)論壇等7大板塊。目前,清華大學教授、集成電路學院副院長尹首一 ,AMD人工智能事業(yè)部高級總監(jiān)王宏強,高通AI產(chǎn)品技術(shù)中國區(qū)負責人萬衛(wèi)星,摩爾線程高級產(chǎn)品總監(jiān)付海良波等30+位嘉賓已確認參會。掃名~原文:https://zhuanlan.zhihu.com/p/700874387
01背景介紹業(yè)界廣泛采用 FP16、BF16 混合精度(AMP)進行模型訓練。AMP 能在下游任務不掉點的前提下提升訓練效率、減少顯存等資源占用,如今也常用于大模型預訓練、微調(diào)等任務。
Pytorch 1.6 版本后原生支持 FP16、BF16 精度的 AMP 訓練(torch.amp),過往 AMP 功能由 NVIDIA APEX 庫實現(xiàn)。
NVIDIA GPU 自 Hopper 架構(gòu)起支持 FP8 精度的 Tensor Core 計算,相比于 FP16/BF16 精度,F(xiàn)P8 具有如下優(yōu)勢:
更強的計算性能
對比 A100 BF16 精度訓練,H100 FP8 訓
原文鏈接:FP8 低精度訓練:Transformer Engine 簡析
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...