<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降

        AIGC動(dòng)態(tài)2個(gè)月前發(fā)布 AI范兒
        483 0 0

        300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降

        原標(biāo)題:300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降
        文章來源:AI范兒
        內(nèi)容字?jǐn)?shù):2230字

        DeepSeek開源周第三天:高性能FP8通用矩陣乘法庫DeepGEMM發(fā)布

        DeepSeek開源周第三天重磅推出DeepGEMM,這是一個(gè)專為FP8通用矩陣乘法(GEMM)設(shè)計(jì)的高性能計(jì)算庫,旨在提升人工智能在資源受限環(huán)境下的計(jì)算能力。作為一家致力于開發(fā)高效、低成本大語言模型(LLM)的公司,DeepSeek通過DeepGEMM進(jìn)一步強(qiáng)化了其技術(shù)實(shí)力。

        1. DeepGEMM的核心優(yōu)勢與創(chuàng)新

        DeepGEMM的核心優(yōu)勢在于實(shí)現(xiàn)了DeepSeek-V3中提出的細(xì)粒度縮放功能,并特別優(yōu)化了混合專家系統(tǒng)(MoE)架構(gòu)中的分組矩陣乘法,這是DeepSeek-V3和DeepSeek-R1等先進(jìn)模型的關(guān)鍵計(jì)算需求。它采用創(chuàng)新的安裝方式,無需復(fù)雜的預(yù)編譯過程,通過輕量級即時(shí)編譯(JIT)模塊在運(yùn)行時(shí)編譯所有內(nèi)核,簡化了部署和使用流程。 DeepGEMM用CUDA編寫,核心內(nèi)核函數(shù)僅約300行代碼,易于理解和學(xué)習(xí)。

        2. 精度與性能的平衡

        當(dāng)前版本的DeepGEMM針對NVIDIA Hopper張量核心進(jìn)行了優(yōu)化。為了解決FP8張量核心在累加計(jì)算時(shí)可能面臨的精度問題,它采用了CUDA核心的兩級累加技術(shù),在保證速度的同時(shí)提升了計(jì)算精度。雖然借鑒了CUTLASS和CuTe的一些概念,但DeepGEMM避免了過度依賴,追求簡潔的設(shè)計(jì)。

        3. 令人印象深刻的性能表現(xiàn)

        盡管設(shè)計(jì)輕量,DeepGEMM在各種矩陣形狀下的性能表現(xiàn)都非常出色。在H800 GPU上使用NVCC 12.8的測試結(jié)果顯示,在DeepSeek-V3/R1推理過程中可能用到的大多數(shù)矩陣形狀(包括預(yù)填充和解碼階段,不包含張量并行)上,其性能能夠媲美甚至超越那些由專家精心調(diào)優(yōu)的庫。

        4. DeepGEMM的意義

        DeepGEMM的推出對DeepSeek和整個(gè)AI社區(qū)都具有重要意義:

        1. 提升計(jì)算效率:優(yōu)化底層矩陣運(yùn)算,顯著減少訓(xùn)練和推理時(shí)的計(jì)算資源需求,尤其適合硬件受限環(huán)境。
        2. 降低運(yùn)行成本:支持DeepSeek以低成本構(gòu)建高性能模型的戰(zhàn)略,減少對高端硬件的依賴。
        3. MoE架構(gòu)優(yōu)化:針對MoE模型的特點(diǎn)進(jìn)行了專門優(yōu)化,提升了推理速度和能效。
        4. 開源賦能:作為DeepSeek開放策略的一部分,為開發(fā)者社區(qū)提供了一個(gè)強(qiáng)大的工具。

        5. 總結(jié)

        DeepGEMM的發(fā)布是DeepSeek開源周的又一亮點(diǎn),它是一個(gè)高效、輕量級且易于使用的FP8 GEMM庫,為構(gòu)建高效、低成本的AI模型提供了強(qiáng)有力的支持,并為AI社區(qū)貢獻(xiàn)了一個(gè)寶貴的開源資源。其在性能和精度上的平衡,以及對MoE架構(gòu)的優(yōu)化,使其成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)重要進(jìn)展。


        聯(lián)系作者

        文章來源:AI范兒
        作者微信:
        作者簡介:專注于探索 AIGC,發(fā)掘人工智能的樂趣。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产在线98福利播放视频免费| 亚洲视频在线观看网址| 免费在线观看的网站| 黄色视频在线免费观看| 亚洲午夜精品一区二区麻豆| 亚洲国产精品热久久| 亚洲永久精品ww47| 免费一级肉体全黄毛片| 国产香蕉九九久久精品免费| 久久国产色AV免费观看| 在线观看黄片免费入口不卡| 日韩在线观看免费| 激情婷婷成人亚洲综合| 亚洲欧美中文日韩视频| 在线观看亚洲AV日韩AV| 亚洲一级毛片在线播放| 亚洲美女精品视频| 亚洲人成电影在线天堂| 久久精品亚洲视频| 亚洲成a人片在线观看中文动漫| 亚洲男女内射在线播放| 亚洲成av人片在线观看天堂无码| 在线播放免费人成视频在线观看| 222www免费视频| 亚洲免费视频网址| 蜜臀AV免费一区二区三区| 无码午夜成人1000部免费视频| 免费人成在线观看视频高潮| 国产一级黄片儿免费看| 伊人久久大香线蕉免费视频| 国产JIZZ中国JIZZ免费看| 波霸在线精品视频免费观看| www永久免费视频| 中文字幕免费播放| 久久久久久成人毛片免费看| 国产好大好硬好爽免费不卡 | 麻豆成人精品国产免费| 日韩免费高清视频| 又粗又黄又猛又爽大片免费| 又粗又硬又大又爽免费视频播放| 亚洲国产香蕉人人爽成AV片久久|