<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        KTransformers

        AI工具6個月前更新 AI工具集
        1,588 0 0

        KTransformers – 清華開源的大語言模型推理優化框架

        KTransformers是清華大學KVCache.AI團隊與趨境科技共同推出的開源項目,旨在提升大語言模型的推理性能,同時降低對硬件的要求。該項目基于GPU和CPU的異構計算策略,利用MoE架構的稀疏特性,使得在僅有24GB顯存的單張顯卡上也能順利運行DeepSeek-R1和V3的671B滿血版模型,預處理速度可高達286 tokens/s,推理生成速度可達14 tokens/s。通過引入基于計算強度的卸載策略、高性能算子和CUDA Graph優化等技術,KTransformers顯著提高了推理效率。

        KTransformers是什么

        KTransformers是由清華大學KVCache.AI團隊與趨境科技合作開發的開源項目,旨在優化大規模語言模型的推理速度,并降低用戶的硬件要求。該項目采用GPU/CPU異構計算的方法,結合MoE架構的稀疏性,在僅需24GB顯存的單張顯卡上成功運行DeepSeek-R1和V3的671B滿血版模型,達到最高286 tokens/s的預處理速度和14 tokens/s的推理生成速度。項目通過計算強度的卸載策略、高性能算子和CUDA Graph優化等技術手段,有效提升了推理性能。

        KTransformers

        KTransformers的主要功能

        • 支持超大模型的本地推理:僅需24GB顯存的單張顯卡即可運行671B參數的DeepSeek-R1等超大模型,打破了傳統硬件的限制。
        • 顯著提升推理速度:預處理速度可達到最高286 tokens/s,推理生成速度高達14 tokens/s。
        • 兼容多種模型和算子:支持DeepSeek系列及其它MoE架構模型,提供靈活的模板注入框架,允許用戶切換量化策略和內核替換,以滿足不同的優化需求。
        • 降低硬件門檻:大幅減少大模型的顯存需求,使得普通用戶和中小團隊能夠在消費級硬件上運行千億級參數模型,實現“家庭化”部署。
        • 支持長序列任務:整合Intel AMX指令集,CPU預填充速度可達286 tokens/s,相比傳統方案快28倍,將長序列任務的處理時間從“分鐘級”縮短至“秒級”。

        KTransformers的技術原理

        • MoE架構:將稀疏的MoE矩陣卸載到CPU/DRAM進行處理,稠密部分則保留在GPU上,大幅降低了顯存需求。
        • 卸載策略:根據計算強度將任務分配至GPU和CPU:計算強度高的任務(如MLA算子)優先分配至GPU,而計算強度低的任務則分配至CPU。
        • 高性能算子優化
          • CPU端:采用llamafile作為CPU內核,結合多線程、任務調度和負載均衡等優化,提升了CPU推理效率。
          • GPU端:引入Marlin算子,專門針對量化矩陣計算進行優化,相較于傳統庫(如Torch)實現了3.87倍的加速。
        • CUDA Graph優化:利用CUDA Graph減少Python調用的開銷,降低CPU/GPU之間的通信斷點,實現高效的異構計算協同。每次解碼僅需一次完整的CUDA Graph調用,顯著提升了推理性能。
        • 量化與存儲優化:采用4bit量化技術,進一步壓縮模型的存儲需求,使得671B參數的模型僅需24GB顯存。同時優化KV緩存的大小,減少存儲開銷。
        • 模板注入框架:提供基于YAML的模板注入框架,支持用戶靈活切換量化策略和內核替換等優化方式,以適應不同的應用場景。

        KTransformers的項目地址

        KTransformers的應用場景

        • 個人開發與中小團隊:在消費級硬件上運行大模型,進行文本生成、問答系統等開發,降低開發成本。
        • 長序列任務:高效處理長文本、代碼分析等任務,實現處理時間從分鐘級縮短到秒級。
        • 企業級應用:本地部署大模型,用于智能客服、內容推薦等,節省云服務費用。
        • 學術研究:在普通硬件上探索和優化MoE架構模型,加速研究的進展。
        • 教育與培訓:作為教學工具,幫助學生實踐大模型的應用,理解相關的優化技術。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品综合福利专区| 久久精品a亚洲国产v高清不卡| 日韩在线天堂免费观看 | 亚洲乳大丰满中文字幕| 亚洲天堂中文字幕| 亚洲国产午夜精品理论片在线播放| 免费无码国产在线观国内自拍中文字幕 | 16女性下面扒开无遮挡免费| 成年大片免费视频| 伊人久久综在合线亚洲91| 亚洲成人网在线播放| 91精品免费在线观看| 在线观看亚洲精品福利片| 国产黄色免费观看| 国拍在线精品视频免费观看| 亚洲色偷偷偷鲁综合| 免费a级毛片无码a∨免费软件| 久久电影网午夜鲁丝片免费| 亚洲AV本道一区二区三区四区| 老外毛片免费视频播放| 毛色毛片免费观看| 国产亚洲欧美日韩亚洲中文色| 99爱视频99爱在线观看免费| 国产亚洲大尺度无码无码专线| 免费网站观看WWW在线观看| 久久精品亚洲一区二区三区浴池| 国产91色综合久久免费| 亚洲一本综合久久| 国产情侣激情在线视频免费看| 亚洲精品无码激情AV| 亚洲情A成黄在线观看动漫软件| 日韩人妻无码精品久久免费一| 亚洲国产高清在线精品一区| 国产精品99久久免费| 亚洲AV无码一区二区三区人| 狼群影院在线观看免费观看直播| 香蕉大伊亚洲人在线观看| 亚洲精品国产电影| 免费黄色福利视频| 亚洲精品视频免费| 亚洲五月综合缴情婷婷|