国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

DeepGEMM

AI工具7個(gè)月前更新 AI工具集
751 0 0

DeepGEMM – DeepSeek 開源的 FP8 通用矩陣乘法庫

DeepGEMM是什么

DeepGEMM是由DeepSeek開發(fā)的開源庫,專為高效和簡潔的FP8矩陣乘法(GEMM)而設(shè)計(jì)。目前,該庫僅兼容NVIDIA Hopper架構(gòu)的張量核心。DeepGEMM不僅支持普通的GEMM操作,還支持混合專家(MoE)模型中的分組矩陣乘法。它基于即時(shí)編譯(JIT)技術(shù),允許在運(yùn)行時(shí)進(jìn)行動(dòng)態(tài)優(yōu)化,無需事先進(jìn)行編譯。通過細(xì)粒度縮放和CUDA核心的雙級累加機(jī)制,DeepGEMM有效解決了FP8精度不足的問題,并利用Hopper的Tensor Memory Accelerator(TMA)特性大幅提升數(shù)據(jù)傳輸效率。其核心代碼簡約,僅約300行,便于學(xué)習(xí)和優(yōu)化,且在多種矩陣形狀下的性能達(dá)到或超過專家級優(yōu)化庫的水平。

DeepGEMM

DeepGEMM的主要功能

  • 高效FP8矩陣乘法(GEMM):專為FP8(8位浮點(diǎn)數(shù))矩陣乘法優(yōu)化的庫,采用細(xì)粒度縮放技術(shù),顯著提升計(jì)算性能與精度。
  • 支持普通和分組GEMM
    • 普通GEMM:適合常規(guī)矩陣乘法操作。
    • 分組GEMM:優(yōu)化混合專家(MoE)模型中的分組矩陣乘法,支持連續(xù)布局和掩碼布局,提升多專家共享形狀的計(jì)算效率。
  • 即時(shí)編譯(JIT)設(shè)計(jì):所有內(nèi)核在運(yùn)行時(shí)動(dòng)態(tài)編譯,避免安裝時(shí)編譯,根據(jù)矩陣形狀和塊大小等參數(shù)進(jìn)行優(yōu)化,提升性能并節(jié)約寄存器。
  • Hopper架構(gòu)優(yōu)化:專為NVIDIA Hopper架構(gòu)設(shè)計(jì),充分利用TMA特性,包括加載、存儲(chǔ)、多播和描述符預(yù)取,大幅提高數(shù)據(jù)傳輸效率。
  • 細(xì)粒度縮放和雙級累加:通過細(xì)粒度縮放技術(shù)和CUDA核心的雙級累加機(jī)制,解決FP8計(jì)算的精度問題,將FP8結(jié)果提升至更高精度格式(如BF16),確保計(jì)算精度。
  • 輕量級設(shè)計(jì):核心代碼簡潔,易于理解和擴(kuò)展,避免復(fù)雜的模板或代數(shù)結(jié)構(gòu)依賴,降低學(xué)習(xí)和優(yōu)化的門檻。

產(chǎn)品官網(wǎng)

DeepGEMM的性能表現(xiàn)

  • 普通GEMM(非分組)性能
    • 最高加速比:在特定矩陣形狀下,DeepGEMM能夠?qū)崿F(xiàn)高達(dá)2.7倍的加速,大幅提升矩陣乘法效率。
    • 計(jì)算性能:在大規(guī)模矩陣計(jì)算中,DeepGEMM的計(jì)算性能超過1000 TFLOPS,接近Hopper架構(gòu)GPU的理論峰值。

DeepGEMM

  • 分組GEMM(MoE模型)性能
    • 加速比:在分組GEMM中,DeepGEMM的加速比為1.1至1.2倍,顯著提升MoE模型的訓(xùn)練和推理效率。
    • 內(nèi)存帶寬優(yōu)化:利用TMA特性,DeepGEMM在內(nèi)存帶寬的利用上表現(xiàn)卓越,接近硬件性能極限。
      • 連續(xù)布局(Contiguous Layout)

DeepGEMM

      • 掩碼布局(Masked Layout)

DeepGEMM

DeepGEMM的系統(tǒng)要求

  • 硬件要求
    • GPU架構(gòu):必須支持NVIDIA Hopper架構(gòu),具體要求為支持sm_90a的GPU。推薦使用H800或H100等專為FP8計(jì)算和Tensor Core優(yōu)化的Hopper架構(gòu)GPU。
    • CUDA兼容性:需支持CUDA 12.3或更高版本,推薦使用CUDA 12.8或更高版本以獲得最佳性能。
  • 軟件要求
    • 操作系統(tǒng)推薦:建議使用Linux操作系統(tǒng)(如Ubuntu、CentOS等),以便于CUDA和PyTorch的更好支持。
    • Python版本:Python 3.8或更高版本。
    • CUDA工具包:CUDA 12.3或更高版本。CUDA版本需與GPU架構(gòu)相匹配,推薦使用12.8或更高版本以充分發(fā)揮Hopper架構(gòu)的優(yōu)勢。
    • PyTorch:PyTorch 2.1或更高版本。
    • CUTLASS庫:CUTLASS 3.6或更高版本。
  • 其他要求
    • 標(biāo)準(zhǔn)編譯工具(如gcc、make等)。
    • torch.utils.cpp_extension模塊,用于CUDA擴(kuò)展。

DeepGEMM的應(yīng)用場景

  • 大規(guī)模AI模型推理:加速高維矩陣乘法,提升推理速度。
  • 混合專家(MoE)模型:優(yōu)化分組矩陣乘法,增強(qiáng)計(jì)算效率。
  • 低精度計(jì)算:通過細(xì)粒度縮放解決FP8精度問題,確保高精度輸出。
  • 高性能計(jì)算:基于Hopper架構(gòu)特性,提升矩陣運(yùn)算效率。
  • 深度學(xué)習(xí)框架優(yōu)化:作為底層優(yōu)化庫,加速模型的訓(xùn)練和推理。
閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        欧美综合欧美视频| 国产成人免费视频网站| 久久综合综合久久综合| 91精品国产一区二区三区| 日韩和欧美一区二区| 日韩西西人体444www| 国产成人a级片| 国产精品美女久久久久av爽李琼| 成人污视频在线观看| 一区二区三区影院| 26uuu久久天堂性欧美| av高清久久久| 奇米一区二区三区| 国产嫩草影院久久久久| 色一区在线观看| 麻豆精品在线视频| 综合色天天鬼久久鬼色| 777xxx欧美| www.99精品| 日本免费新一区视频| 亚洲国产激情av| 日韩区在线观看| 色国产精品一区在线观看| 精一区二区三区| 亚洲一区二区在线免费看| 久久网站最新地址| 欧美精品乱码久久久久久按摩 | 国产suv精品一区二区三区| 亚洲图片你懂的| 2021久久国产精品不只是精品| 91视视频在线观看入口直接观看www| 日韩一区欧美二区| 综合久久久久综合| 欧美国产精品v| 欧美精品一区二区三区四区| 欧美三级三级三级爽爽爽| 免费精品99久久国产综合精品| 国产亚洲污的网站| 日韩免费观看高清完整版在线观看| 91老司机福利 在线| 加勒比av一区二区| 午夜日韩在线电影| 亚洲成人av在线电影| 一区二区三区精品| 亚洲蜜臀av乱码久久精品蜜桃| 国产清纯美女被跳蛋高潮一区二区久久w | 欧美午夜视频网站| 99在线精品观看| 成人h动漫精品一区二区| 激情综合色播激情啊| 精品一区二区影视| 激情久久久久久久久久久久久久久久| 日韩精品五月天| 日本午夜一区二区| 毛片不卡一区二区| 国内一区二区视频| 国产高清视频一区| av资源网一区| 色综合天天天天做夜夜夜夜做| 91丨porny丨蝌蚪视频| 91成人在线精品| 欧美肥妇bbw| 精品美女一区二区三区| 欧美成人激情免费网| 久久亚洲捆绑美女| 中文字幕 久热精品 视频在线 | 日韩欧美国产1| 精品免费一区二区三区| 国产欧美日韩三区| 亚洲美女在线国产| 图片区日韩欧美亚洲| 久久成人免费电影| 成人性生交大片免费看中文| 99视频一区二区| 欧美色网一区二区| 精品美女一区二区三区| 国产精品少妇自拍| 亚洲成人在线免费| 国产精品一区二区在线观看网站| 成人ar影院免费观看视频| 91国产福利在线| 欧美xxxx老人做受| 亚洲老妇xxxxxx| 久久成人免费网| 色就色 综合激情| 精品国精品国产| 亚洲精品国产精华液| 麻豆精品一区二区三区| av在线不卡观看免费观看| 欧美视频在线观看一区二区| xfplay精品久久| 亚洲中国最大av网站| 99久久精品国产一区二区三区| 99久久精品免费看国产| 欧美一级黄色片| 1000精品久久久久久久久| 男人的天堂亚洲一区| 成人av午夜电影| 日韩色视频在线观看| 一区二区三区av电影| 国产高清久久久久| 欧美大片一区二区三区| 亚洲香肠在线观看| 99精品视频一区二区三区| 精品国产不卡一区二区三区| 亚洲综合在线视频| av在线综合网| 国产精品视频在线看| 久久精品免费观看| 91精品视频网| 午夜精品一区二区三区免费视频| 色综合久久久久久久久久久| 国产欧美精品一区二区三区四区| 日韩avvvv在线播放| 欧美日韩免费电影| 一区二区三区中文字幕精品精品 | 国产精品亚洲专一区二区三区| 欧美日韩精品久久久| 日韩一区有码在线| 成人免费视频视频在线观看免费| 日韩一级黄色大片| 欧美aⅴ一区二区三区视频| 精品1区2区3区| 亚洲综合网站在线观看| 91麻豆成人久久精品二区三区| 中文字幕的久久| 成人看片黄a免费看在线| 日本一区二区三区在线不卡| 国产激情91久久精品导航| 欧美精品一区二区三区四区| 麻豆91在线看| 欧美精品一区二区三区视频| 极品销魂美女一区二区三区| 精品欧美一区二区三区精品久久| 日本伊人色综合网| 日韩精品一区二区三区三区免费| 美女国产一区二区| 久久综合色天天久久综合图片| 国产精品一区二区在线观看网站| 久久精品夜色噜噜亚洲aⅴ| 粉嫩av亚洲一区二区图片| 欧美极品少妇xxxxⅹ高跟鞋| www.激情成人| 亚洲成人精品影院| 日韩精品一区二区在线| 国产精品正在播放| 亚洲色图视频免费播放| 欧美日韩国产首页| 国内偷窥港台综合视频在线播放| 国产欧美日本一区视频| 一本大道综合伊人精品热热| 婷婷国产在线综合| 国产丝袜欧美中文另类| 色综合久久久久综合99| 蜜桃av一区二区在线观看| 中文字幕乱码亚洲精品一区| 在线亚洲一区观看| 久久99精品一区二区三区三区| 国产精品色在线| 国产精品乱码妇女bbbb| 93久久精品日日躁夜夜躁欧美| 亚洲成人综合在线| 国产欧美一区二区精品婷婷| 欧美性极品少妇| 国产精品性做久久久久久| 一区二区三区精密机械公司| 精品久久久三级丝袜| 99久久国产综合精品色伊| 蜜桃精品视频在线| 一区二区三区欧美视频| 欧美精品一区二区三区四区| 欧美亚洲国产怡红院影院| 国产精品一区二区x88av| 一个色妞综合视频在线观看| 久久久久久久一区| 91精品久久久久久久91蜜桃| 91小视频免费观看| 韩国av一区二区| 免费观看成人av| 一区二区三区在线观看视频| 欧美精彩视频一区二区三区| 91精品久久久久久久久99蜜臂| 色噜噜狠狠色综合欧洲selulu| 国产在线观看一区二区| 无码av免费一区二区三区试看| 亚洲丝袜另类动漫二区| 久久免费看少妇高潮| 91精品国产综合久久精品app| 91免费小视频| 成人不卡免费av| 成人午夜电影久久影院| 国产一区二区三区在线观看免费| 无码av中文一区二区三区桃花岛| 尤物av一区二区| 中文字幕亚洲电影| 国产欧美精品国产国产专区| 欧美成人r级一区二区三区| 欧美放荡的少妇| 欧美一区二区观看视频| 777亚洲妇女|