国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

300行代碼顛覆矩陣計(jì)算！DeepSeek開源DeepGEMM：FP8精度+MoE優(yōu)化，LLM推理成本直降

原標(biāo)題：300行代碼顛覆矩陣計(jì)算！DeepSeek開源DeepGEMM：FP8精度+MoE優(yōu)化，LLM推理成本直降
文章來源：AI范兒
內(nèi)容字?jǐn)?shù)：2230字

DeepSeek開源周第三天：高性能FP8通用矩陣乘法庫DeepGEMM發(fā)布

DeepSeek開源周第三天重磅推出DeepGEMM，這是一個(gè)專為FP8通用矩陣乘法（GEMM）設(shè)計(jì)的高性能計(jì)算庫，旨在提升人工智能在資源受限環(huán)境下的計(jì)算能力。作為一家致力于開發(fā)高效、低成本大語言模型（LLM）的公司，DeepSeek通過DeepGEMM進(jìn)一步強(qiáng)化了其技術(shù)實(shí)力。

1. DeepGEMM的核心優(yōu)勢與創(chuàng)新

DeepGEMM的核心優(yōu)勢在于實(shí)現(xiàn)了DeepSeek-V3中提出的細(xì)粒度縮放功能，并特別優(yōu)化了混合專家系統(tǒng)（MoE）架構(gòu)中的分組矩陣乘法，這是DeepSeek-V3和DeepSeek-R1等先進(jìn)模型的關(guān)鍵計(jì)算需求。它采用創(chuàng)新的安裝方式，無需復(fù)雜的預(yù)編譯過程，通過輕量級(jí)即時(shí)編譯（JIT）模塊在運(yùn)行時(shí)編譯所有內(nèi)核，簡化了部署和使用流程。 DeepGEMM用CUDA編寫，核心內(nèi)核函數(shù)僅約300行代碼，易于理解和學(xué)習(xí)。

2. 精度與性能的平衡

當(dāng)前版本的DeepGEMM針對(duì)NVIDIA Hopper張量核心進(jìn)行了優(yōu)化。為了解決FP8張量核心在累加計(jì)算時(shí)可能面臨的精度問題，它采用了CUDA核心的兩級(jí)累加技術(shù)，在保證速度的同時(shí)提升了計(jì)算精度。雖然借鑒了CUTLASS和CuTe的一些概念，但DeepGEMM避免了過度依賴，追求簡潔的設(shè)計(jì)。

3. 令人印象深刻的性能表現(xiàn)

盡管設(shè)計(jì)輕量，DeepGEMM在各種矩陣形狀下的性能表現(xiàn)都非常出色。在H800 GPU上使用NVCC 12.8的測試結(jié)果顯示，在DeepSeek-V3/R1推理過程中可能用到的大多數(shù)矩陣形狀（包括預(yù)填充和解碼階段，不包含張量并行）上，其性能能夠媲美甚至超越那些由專家精心調(diào)優(yōu)的庫。

4. DeepGEMM的意義

DeepGEMM的推出對(duì)DeepSeek和整個(gè)AI社區(qū)都具有重要意義：

提升計(jì)算效率：優(yōu)化底層矩陣運(yùn)算，顯著減少訓(xùn)練和推理時(shí)的計(jì)算資源需求，尤其適合硬件受限環(huán)境。
降低運(yùn)行成本：支持DeepSeek以低成本構(gòu)建高性能模型的戰(zhàn)略，減少對(duì)高端硬件的依賴。
MoE架構(gòu)優(yōu)化：針對(duì)MoE模型的特點(diǎn)進(jìn)行了專門優(yōu)化，提升了推理速度和能效。
開源賦能：作為DeepSeek開放策略的一部分，為開發(fā)者社區(qū)提供了一個(gè)強(qiáng)大的工具。

5. 總結(jié)

DeepGEMM的發(fā)布是DeepSeek開源周的又一亮點(diǎn)，它是一個(gè)高效、輕量級(jí)且易于使用的FP8 GEMM庫，為構(gòu)建高效、低成本的AI模型提供了強(qiáng)有力的支持，并為AI社區(qū)貢獻(xiàn)了一個(gè)寶貴的開源資源。其在性能和精度上的平衡，以及對(duì)MoE架構(gòu)的優(yōu)化，使其成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)重要進(jìn)展。