<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        4090單卡跑滿血版DeepSeek-R1,清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

        AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 量子位
        636 0 0

        用異構(gòu)計(jì)算打開一條新的推理路徑

        4090單卡跑滿血版DeepSeek-R1,清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

        原標(biāo)題:4090單卡跑滿血版DeepSeek-R1,清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):4243字

        清華大學(xué)開源項(xiàng)目KTransformers:讓千億參數(shù)大模型“飛入尋常百姓家”

        DeepSeek-R1等千億參數(shù)大模型因其強(qiáng)大的性能而備受關(guān)注,但高昂的推理成本和對(duì)硬件資源的極高需求,使其難以在中小團(tuán)隊(duì)甚至個(gè)人手中運(yùn)行。清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布的KTransformers開源項(xiàng)目,為這一難題提供了一種有效的解決方案。該項(xiàng)目通過一系列技術(shù)創(chuàng)新,實(shí)現(xiàn)了在24GB顯存的消費(fèi)級(jí)顯卡上運(yùn)行DeepSeek-R1/V3的671B參數(shù)滿血版,將千億級(jí)模型的推理帶入“家庭化”時(shí)代。

        1. 突破顯存限制:專家卸載技術(shù)與異構(gòu)計(jì)算

          KTransformers的核心技術(shù)在于“專家卸載”技術(shù),它巧妙地利用MoE(混合專家)架構(gòu)的稀疏性。DeepSeek-R1/V3采用MoE架構(gòu),模型的任務(wù)分配給不同的專家模塊,每次推理僅激活部分參數(shù)。KTransformers將非共享的稀疏MoE矩陣放在CPU/DRAM上,使用llamafile的高速算子處理;將稠密部分放在GPU上使用Marlin算子處理,實(shí)現(xiàn)了GPU/CPU的異構(gòu)計(jì)算劃分策略。這種策略使得在僅需24GB顯存的環(huán)境下就能運(yùn)行671B參數(shù)的模型,例如單張4090顯卡即可滿足需求。

        2. 顯著提升推理速度:高性能算子與CUDA Graph優(yōu)化

          KTransformers不僅解決了顯存問題,還大幅提升了推理速度。它采用基于計(jì)算強(qiáng)度的offload策略,優(yōu)先將計(jì)算強(qiáng)度高的部分(MLA > Shared Expert > Routed Expert)放入GPU。同時(shí),引入llamafile作為CPU內(nèi)核和Marlin算子作為GPU內(nèi)核,并進(jìn)行多線程、任務(wù)調(diào)度等優(yōu)化,實(shí)現(xiàn)了高達(dá)286 tokens/s的預(yù)填充速度和14 tokens/s的生成速度。此外,KTransformers通過優(yōu)化CUDA Graph,減少了CPU/GPU通訊開銷,進(jìn)一步提升了性能。

        3. 易用性與擴(kuò)展性:友好的API和靈活的框架

          為了降低使用門檻,KTransformers提供了兼容HuggingFace Transformers的API和ChatGPT式Web界面。同時(shí),其基于YAML的“模板注入框架”支持靈活切換量化策略、內(nèi)核替換等多種優(yōu)化方式,方便用戶進(jìn)行模型和算子的組合測(cè)試。該項(xiàng)目支持Windows和Linux平臺(tái),并已在localLLaMa社區(qū)持續(xù)位居熱榜第一,擁有活躍的開發(fā)者社區(qū)。

        4. 技術(shù)細(xì)節(jié):MLA算子優(yōu)化與算子選擇策略

          KTransformers對(duì)MLA算子進(jìn)行了優(yōu)化,將矩陣直接吸收到q_proj和out_proj權(quán)重中,減少了KV緩存大小并提升了GPU利用率。通過計(jì)算強(qiáng)度來決定劃分策略,將高計(jì)算強(qiáng)度任務(wù)優(yōu)先分配給GPU,充分發(fā)揮GPU和CPU的算力。

        總而言之,KTransformers通過巧妙的架構(gòu)設(shè)計(jì)和優(yōu)化策略,成功地將千億參數(shù)大模型的推理門檻大幅降低,為廣大開發(fā)者和科研人員提供了更便捷、更經(jīng)濟(jì)的探索和應(yīng)用途徑,推動(dòng)了大模型技術(shù)的普及和發(fā)展。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 日本亚洲成高清一区二区三区| 国产免费拔擦拔擦8X高清在线人| 久久99精品免费视频| 亚洲国产午夜中文字幕精品黄网站 | ww亚洲ww在线观看国产| 亚洲一区二区三区免费视频| 亚洲国产日韩一区高清在线| 日韩精品无码免费一区二区三区 | 精品成人一区二区三区免费视频| 成年女人18级毛片毛片免费观看| 亚洲中文字幕久久无码| 日本免费网站在线观看| 香港特级三A毛片免费观看| 亚洲成年人啊啊aa在线观看| yellow免费网站| 亚洲国产另类久久久精品| a毛片免费观看完整| 亚洲一区二区三区夜色| 手机在线看永久av片免费| 亚洲乱码无人区卡1卡2卡3| 免费一级肉体全黄毛片| 久久精品无码免费不卡| 无码乱人伦一区二区亚洲| 每天更新的免费av片在线观看| 亚洲一区中文字幕| 国产一区在线观看免费| 国内大片在线免费看| WWW亚洲色大成网络.COM| 久久久久久A亚洲欧洲AV冫| 九九精品成人免费国产片| 亚洲国产精品成人精品小说| 成年女人看片免费视频播放器| 亚洲av综合日韩| 亚洲一区二区三区影院 | 拍拍拍无挡免费视频网站| 亚洲综合无码一区二区| 成人免费视频88| a级毛片毛片免费观看永久| 亚洲国产成人手机在线电影bd| 国产免费看插插插视频| 国产在线观看免费视频软件|