4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

用異構(gòu)計(jì)算打開一條新的推理路徑

原標(biāo)題：4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4243字

清華大學(xué)開源項(xiàng)目KTransformers：讓千億參數(shù)大模型“飛入尋常百姓家”

DeepSeek-R1等千億參數(shù)大模型因其強(qiáng)大的性能而備受關(guān)注，但高昂的推理成本和對(duì)硬件資源的極高需求，使其難以在中小團(tuán)隊(duì)甚至個(gè)人手中運(yùn)行。清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布的KTransformers開源項(xiàng)目，為這一難題提供了一種有效的解決方案。該項(xiàng)目通過一系列技術(shù)創(chuàng)新，實(shí)現(xiàn)了在24GB顯存的消費(fèi)級(jí)顯卡上運(yùn)行DeepSeek-R1/V3的671B參數(shù)滿血版，將千億級(jí)模型的推理帶入“家庭化”時(shí)代。

突破顯存限制：專家卸載技術(shù)與異構(gòu)計(jì)算
KTransformers的核心技術(shù)在于“專家卸載”技術(shù)，它巧妙地利用MoE（混合專家）架構(gòu)的稀疏性。DeepSeek-R1/V3采用MoE架構(gòu)，模型的任務(wù)分配給不同的專家模塊，每次推理僅激活部分參數(shù)。KTransformers將非共享的稀疏MoE矩陣放在CPU/DRAM上，使用llamafile的高速算子處理；將稠密部分放在GPU上使用Marlin算子處理，實(shí)現(xiàn)了GPU/CPU的異構(gòu)計(jì)算劃分策略。這種策略使得在僅需24GB顯存的環(huán)境下就能運(yùn)行671B參數(shù)的模型，例如單張4090顯卡即可滿足需求。
顯著提升推理速度：高性能算子與CUDA Graph優(yōu)化
KTransformers不僅解決了顯存問題，還大幅提升了推理速度。它采用基于計(jì)算強(qiáng)度的offload策略，優(yōu)先將計(jì)算強(qiáng)度高的部分（MLA > Shared Expert > Routed Expert）放入GPU。同時(shí)，引入llamafile作為CPU內(nèi)核和Marlin算子作為GPU內(nèi)核，并進(jìn)行多線程、任務(wù)調(diào)度等優(yōu)化，實(shí)現(xiàn)了高達(dá)286 tokens/s的預(yù)填充速度和14 tokens/s的生成速度。此外，KTransformers通過優(yōu)化CUDA Graph，減少了CPU/GPU通訊開銷，進(jìn)一步提升了性能。
易用性與擴(kuò)展性：友好的API和靈活的框架
為了降低使用門檻，KTransformers提供了兼容HuggingFace Transformers的API和ChatGPT式Web界面。同時(shí)，其基于YAML的“模板注入框架”支持靈活切換量化策略、內(nèi)核替換等多種優(yōu)化方式，方便用戶進(jìn)行模型和算子的組合測(cè)試。該項(xiàng)目支持Windows和Linux平臺(tái)，并已在localLLaMa社區(qū)持續(xù)位居熱榜第一，擁有活躍的開發(fā)者社區(qū)。
技術(shù)細(xì)節(jié)：MLA算子優(yōu)化與算子選擇策略
KTransformers對(duì)MLA算子進(jìn)行了優(yōu)化，將矩陣直接吸收到q_proj和out_proj權(quán)重中，減少了KV緩存大小并提升了GPU利用率。通過計(jì)算強(qiáng)度來決定劃分策略，將高計(jì)算強(qiáng)度任務(wù)優(yōu)先分配給GPU，充分發(fā)揮GPU和CPU的算力。

總而言之，KTransformers通過巧妙的架構(gòu)設(shè)計(jì)和優(yōu)化策略，成功地將千億參數(shù)大模型的推理門檻大幅降低，為廣大開發(fā)者和科研人員提供了更便捷、更經(jīng)濟(jì)的探索和應(yīng)用途徑，推動(dòng)了大模型技術(shù)的普及和發(fā)展。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 4090推理 # DeepSeek-R1 # 低資源大模型推理 # 單卡推理 # 大模型推理

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

用異構(gòu)計(jì)算打開一條新的推理路徑

清華大學(xué)開源項(xiàng)目KTransformers：讓千億參數(shù)大模型“飛入尋常百姓家”

突破顯存限制：專家卸載技術(shù)與異構(gòu)計(jì)算

顯著提升推理速度：高性能算子與CUDA Graph優(yōu)化

易用性與擴(kuò)展性：友好的API和靈活的框架

技術(shù)細(xì)節(jié)：MLA算子優(yōu)化與算子選擇策略

聯(lián)系作者

如何訓(xùn)練最強(qiáng)代碼大模型？北大aiXcoder-7B貢獻(xiàn)前沿實(shí)踐

清華一作1B暴打405B巨無霸，7B逆襲DeepSeek R1！測(cè)試時(shí)Scaling封神

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

用異構(gòu)計(jì)算打開一條新的推理路徑

清華大學(xué)開源項(xiàng)目KTransformers：讓千億參數(shù)大模型“飛入尋常百姓家”

突破顯存限制：專家卸載技術(shù)與異構(gòu)計(jì)算

顯著提升推理速度：高性能算子與CUDA Graph優(yōu)化

易用性與擴(kuò)展性：友好的API和靈活的框架

技術(shù)細(xì)節(jié)：MLA算子優(yōu)化與算子選擇策略

聯(lián)系作者

如何訓(xùn)練最強(qiáng)代碼大模型？北大aiXcoder-7B貢獻(xiàn)前沿實(shí)踐

清華一作1B暴打405B巨無霸，7B逆襲DeepSeek R1！測(cè)試時(shí)Scaling封神

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

清華一作1B暴打405B巨無霸，7B逆襲DeepSeek R1！測(cè)試時(shí)Scaling封神