300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降
原標(biāo)題:300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降
文章來源:AI范兒
內(nèi)容字?jǐn)?shù):2230字
DeepSeek開源周第三天:高性能FP8通用矩陣乘法庫DeepGEMM發(fā)布
DeepSeek開源周第三天重磅推出DeepGEMM,這是一個(gè)專為FP8通用矩陣乘法(GEMM)設(shè)計(jì)的高性能計(jì)算庫,旨在提升人工智能在資源受限環(huán)境下的計(jì)算能力。作為一家致力于開發(fā)高效、低成本大語言模型(LLM)的公司,DeepSeek通過DeepGEMM進(jìn)一步強(qiáng)化了其技術(shù)實(shí)力。
1. DeepGEMM的核心優(yōu)勢與創(chuàng)新
DeepGEMM的核心優(yōu)勢在于實(shí)現(xiàn)了DeepSeek-V3中提出的細(xì)粒度縮放功能,并特別優(yōu)化了混合專家系統(tǒng)(MoE)架構(gòu)中的分組矩陣乘法,這是DeepSeek-V3和DeepSeek-R1等先進(jìn)模型的關(guān)鍵計(jì)算需求。它采用創(chuàng)新的安裝方式,無需復(fù)雜的預(yù)編譯過程,通過輕量級即時(shí)編譯(JIT)模塊在運(yùn)行時(shí)編譯所有內(nèi)核,簡化了部署和使用流程。 DeepGEMM用CUDA編寫,核心內(nèi)核函數(shù)僅約300行代碼,易于理解和學(xué)習(xí)。
2. 精度與性能的平衡
當(dāng)前版本的DeepGEMM針對NVIDIA Hopper張量核心進(jìn)行了優(yōu)化。為了解決FP8張量核心在累加計(jì)算時(shí)可能面臨的精度問題,它采用了CUDA核心的兩級累加技術(shù),在保證速度的同時(shí)提升了計(jì)算精度。雖然借鑒了CUTLASS和CuTe的一些概念,但DeepGEMM避免了過度依賴,追求簡潔的設(shè)計(jì)。
3. 令人印象深刻的性能表現(xiàn)
盡管設(shè)計(jì)輕量,DeepGEMM在各種矩陣形狀下的性能表現(xiàn)都非常出色。在H800 GPU上使用NVCC 12.8的測試結(jié)果顯示,在DeepSeek-V3/R1推理過程中可能用到的大多數(shù)矩陣形狀(包括預(yù)填充和解碼階段,不包含張量并行)上,其性能能夠媲美甚至超越那些由專家精心調(diào)優(yōu)的庫。
4. DeepGEMM的意義
DeepGEMM的推出對DeepSeek和整個(gè)AI社區(qū)都具有重要意義:
- 提升計(jì)算效率:優(yōu)化底層矩陣運(yùn)算,顯著減少訓(xùn)練和推理時(shí)的計(jì)算資源需求,尤其適合硬件受限環(huán)境。
- 降低運(yùn)行成本:支持DeepSeek以低成本構(gòu)建高性能模型的戰(zhàn)略,減少對高端硬件的依賴。
- MoE架構(gòu)優(yōu)化:針對MoE模型的特點(diǎn)進(jìn)行了專門優(yōu)化,提升了推理速度和能效。
- 開源賦能:作為DeepSeek開放策略的一部分,為開發(fā)者社區(qū)提供了一個(gè)強(qiáng)大的工具。
5. 總結(jié)
DeepGEMM的發(fā)布是DeepSeek開源周的又一亮點(diǎn),它是一個(gè)高效、輕量級且易于使用的FP8 GEMM庫,為構(gòu)建高效、低成本的AI模型提供了強(qiáng)有力的支持,并為AI社區(qū)貢獻(xiàn)了一個(gè)寶貴的開源資源。其在性能和精度上的平衡,以及對MoE架構(gòu)的優(yōu)化,使其成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)重要進(jìn)展。
聯(lián)系作者
文章來源:AI范兒
作者微信:
作者簡介:專注于探索 AIGC,發(fā)掘人工智能的樂趣。