AIGC動態歡迎閱讀
原標題:FP8 低精度訓練:Transformer Engine 簡析
關鍵字:精度,模型,數據,數值,框架
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
大模型時代最火AI芯片峰會來啦!!9月6-7日,由智猩猩聯合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數據中心AI芯片、智算集群技術論壇等7大板塊。目前,清華大學教授、集成電路學院副院長尹首一 ,AMD人工智能事業部高級總監王宏強,高通AI產品技術中國區負責人萬衛星,摩爾線程高級產品總監付海良波等30+位嘉賓已確認參會。掃名~原文:https://zhuanlan.zhihu.com/p/700874387
01背景介紹業界廣泛采用 FP16、BF16 混合精度(AMP)進行模型訓練。AMP 能在下游任務不掉點的前提下提升訓練效率、減少顯存等資源占用,如今也常用于大模型預訓練、微調等任務。
Pytorch 1.6 版本后原生支持 FP16、BF16 精度的 AMP 訓練(torch.amp),過往 AMP 功能由 NVIDIA APEX 庫實現。
NVIDIA GPU 自 Hopper 架構起支持 FP8 精度的 Tensor Core 計算,相比于 FP16/BF16 精度,FP8 具有如下優勢:
更強的計算性能
對比 A100 BF16 精度訓練,H100 FP8 訓
原文鏈接:FP8 低精度訓練:Transformer Engine 簡析
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...