国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

KTransformers

AI工具7個(gè)月前更新 AI工具集
1,612 0 0

KTransformers – 清華開(kāi)源的大語(yǔ)言模型推理優(yōu)化框架

KTransformers是清華大學(xué)KVCache.AI團(tuán)隊(duì)與趨境科技共同推出的開(kāi)源項(xiàng)目,旨在提升大語(yǔ)言模型的推理性能,同時(shí)降低對(duì)硬件的要求。該項(xiàng)目基于GPU和CPU的異構(gòu)計(jì)算策略,利用MoE架構(gòu)的稀疏特性,使得在僅有24GB顯存的單張顯卡上也能順利運(yùn)行DeepSeek-R1和V3的671B滿血版模型,預(yù)處理速度可高達(dá)286 tokens/s,推理生成速度可達(dá)14 tokens/s。通過(guò)引入基于計(jì)算強(qiáng)度的卸載策略、高性能算子和CUDA Graph優(yōu)化等技術(shù),KTransformers顯著提高了推理效率。

KTransformers是什么

KTransformers是由清華大學(xué)KVCache.AI團(tuán)隊(duì)與趨境科技合作開(kāi)發(fā)的開(kāi)源項(xiàng)目,旨在優(yōu)化大規(guī)模語(yǔ)言模型的推理速度,并降低用戶的硬件要求。該項(xiàng)目采用GPU/CPU異構(gòu)計(jì)算的方法,結(jié)合MoE架構(gòu)的稀疏性,在僅需24GB顯存的單張顯卡上成功運(yùn)行DeepSeek-R1和V3的671B滿血版模型,達(dá)到最高286 tokens/s的預(yù)處理速度和14 tokens/s的推理生成速度。項(xiàng)目通過(guò)計(jì)算強(qiáng)度的卸載策略、高性能算子和CUDA Graph優(yōu)化等技術(shù)手段,有效提升了推理性能。

KTransformers

KTransformers的主要功能

  • 支持超大模型的本地推理:僅需24GB顯存的單張顯卡即可運(yùn)行671B參數(shù)的DeepSeek-R1等超大模型,打破了傳統(tǒng)硬件的限制。
  • 顯著提升推理速度:預(yù)處理速度可達(dá)到最高286 tokens/s,推理生成速度高達(dá)14 tokens/s。
  • 兼容多種模型和算子:支持DeepSeek系列及其它MoE架構(gòu)模型,提供靈活的模板注入框架,允許用戶切換量化策略和內(nèi)核替換,以滿足不同的優(yōu)化需求。
  • 降低硬件門檻:大幅減少大模型的顯存需求,使得普通用戶和中小團(tuán)隊(duì)能夠在消費(fèi)級(jí)硬件上運(yùn)行千億級(jí)參數(shù)模型,實(shí)現(xiàn)“家庭化”部署。
  • 支持長(zhǎng)序列任務(wù):整合Intel AMX指令集,CPU預(yù)填充速度可達(dá)286 tokens/s,相比傳統(tǒng)方案快28倍,將長(zhǎng)序列任務(wù)的處理時(shí)間從“分鐘級(jí)”縮短至“秒級(jí)”。

KTransformers的技術(shù)原理

  • MoE架構(gòu):將稀疏的MoE矩陣卸載到CPU/DRAM進(jìn)行處理,稠密部分則保留在GPU上,大幅降低了顯存需求。
  • 卸載策略:根據(jù)計(jì)算強(qiáng)度將任務(wù)分配至GPU和CPU:計(jì)算強(qiáng)度高的任務(wù)(如MLA算子)優(yōu)先分配至GPU,而計(jì)算強(qiáng)度低的任務(wù)則分配至CPU。
  • 高性能算子優(yōu)化
    • CPU端:采用llamafile作為CPU內(nèi)核,結(jié)合多線程、任務(wù)調(diào)度和負(fù)載均衡等優(yōu)化,提升了CPU推理效率。
    • GPU端:引入Marlin算子,專門針對(duì)量化矩陣計(jì)算進(jìn)行優(yōu)化,相較于傳統(tǒng)庫(kù)(如Torch)實(shí)現(xiàn)了3.87倍的加速。
  • CUDA Graph優(yōu)化:利用CUDA Graph減少Python調(diào)用的開(kāi)銷,降低CPU/GPU之間的通信斷點(diǎn),實(shí)現(xiàn)高效的異構(gòu)計(jì)算協(xié)同。每次解碼僅需一次完整的CUDA Graph調(diào)用,顯著提升了推理性能。
  • 量化與存儲(chǔ)優(yōu)化:采用4bit量化技術(shù),進(jìn)一步壓縮模型的存儲(chǔ)需求,使得671B參數(shù)的模型僅需24GB顯存。同時(shí)優(yōu)化KV緩存的大小,減少存儲(chǔ)開(kāi)銷。
  • 模板注入框架:提供基于YAML的模板注入框架,支持用戶靈活切換量化策略和內(nèi)核替換等優(yōu)化方式,以適應(yīng)不同的應(yīng)用場(chǎng)景。

KTransformers的項(xiàng)目地址

KTransformers的應(yīng)用場(chǎng)景

  • 個(gè)人開(kāi)發(fā)與中小團(tuán)隊(duì):在消費(fèi)級(jí)硬件上運(yùn)行大模型,進(jìn)行文本生成、問(wèn)答系統(tǒng)等開(kāi)發(fā),降低開(kāi)發(fā)成本。
  • 長(zhǎng)序列任務(wù):高效處理長(zhǎng)文本、代碼分析等任務(wù),實(shí)現(xiàn)處理時(shí)間從分鐘級(jí)縮短到秒級(jí)。
  • 企業(yè)級(jí)應(yīng)用:本地部署大模型,用于智能客服、內(nèi)容推薦等,節(jié)省云服務(wù)費(fèi)用。
  • 學(xué)術(shù)研究:在普通硬件上探索和優(yōu)化MoE架構(gòu)模型,加速研究的進(jìn)展。
  • 教育與培訓(xùn):作為教學(xué)工具,幫助學(xué)生實(shí)踐大模型的應(yīng)用,理解相關(guān)的優(yōu)化技術(shù)。
閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無(wú)評(píng)論

暫無(wú)評(píng)論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        欧美日韩一区二区欧美激情| 国产欧美日韩卡一| 一区二区三区欧美亚洲| 全国精品久久少妇| 91亚洲精品久久久蜜桃| 欧美大片国产精品| 日韩精品久久理论片| 在线精品视频一区二区| 国产欧美日韩中文久久| 国产精品1024久久| 亚洲欧美一区二区三区久本道91| 成人性生交大片免费看中文| 久久久久久久久久久电影| 精品三级av在线| 免费成人av在线| 一区二区三区四区国产精品| 美女网站视频久久| 欧美一区二区性放荡片| 亚洲欧洲99久久| 国产亚洲精久久久久久| 不卡一卡二卡三乱码免费网站| 欧美喷水一区二区| www.性欧美| av电影天堂一区二区在线观看| 成人黄色av网站在线| 91国产视频在线观看| 欧洲亚洲国产日韩| 国产麻豆欧美日韩一区| 性欧美疯狂xxxxbbbb| 亚洲天堂a在线| 在线观看日韩av先锋影音电影院| 国产一区 二区| 美日韩一级片在线观看| 亚洲精品国产精品乱码不99| 国产精品全国免费观看高清| 日韩av一区二区三区四区| 又紧又大又爽精品一区二区| 国产日韩视频一区二区三区| 欧美猛男超大videosgay| 国产jizzjizz一区二区| 精品伊人久久久久7777人| 亚洲成人动漫在线免费观看| 亚洲欧美视频在线观看视频| 日韩欧美激情在线| 成人黄色av电影| 色综合久久综合网欧美综合网| 激情欧美一区二区三区在线观看| 麻豆成人免费电影| 国产一区二区三区久久悠悠色av | 2欧美一区二区三区在线观看视频| 欧美综合一区二区三区| 9色porny自拍视频一区二区| 成人avav在线| 日本韩国欧美三级| 日韩欧美国产一区二区在线播放| 欧美三区在线视频| 欧美大片一区二区三区| 亚洲日本免费电影| 极品少妇一区二区三区精品视频| 国产精品资源在线看| 91免费版在线看| 日韩欧美国产综合| 一区二区在线免费观看| 精品中文字幕一区二区小辣椒| 91网站最新网址| 欧美一二三在线| 久久久亚洲精华液精华液精华液| 亚洲欧美偷拍另类a∨色屁股| 豆国产96在线|亚洲| 久久久精品蜜桃| 粗大黑人巨茎大战欧美成人| 久久亚洲一级片| 粉嫩嫩av羞羞动漫久久久| 风间由美一区二区三区在线观看| 3d动漫精品啪啪1区2区免费| 亚洲五月六月丁香激情| 色婷婷综合久久久中文一区二区| 国产精品美女一区二区三区| 日本视频一区二区| 欧美一区二区在线观看| 蜜臀精品一区二区三区在线观看| 制服丝袜日韩国产| 麻豆成人91精品二区三区| 在线91免费看| 国产成人夜色高潮福利影视| 久久久久久久免费视频了| 99久久夜色精品国产网站| 亚洲黄色av一区| 在线不卡免费欧美| aa级大片欧美| 秋霞电影一区二区| 国产精品三级电影| 日韩视频中午一区| 不卡av在线网| 九九国产精品视频| 一区二区日韩电影| 欧美激情艳妇裸体舞| 欧美日韩大陆一区二区| 中文无字幕一区二区三区| 日本精品视频一区二区| 国产精品 日产精品 欧美精品| 国产精品成人免费| 欧美一区二区三区四区五区 | 欧美性视频一区二区三区| 国产一区日韩二区欧美三区| 亚洲一区二区五区| 亚洲色图视频网| 中文字幕不卡在线| 精品国产1区2区3区| 欧美成人r级一区二区三区| 一本久久a久久免费精品不卡| 国产精品一线二线三线精华| 秋霞午夜鲁丝一区二区老狼| 蜜臀a∨国产成人精品| 蜜臀av性久久久久蜜臀aⅴ流畅 | 欧美在线看片a免费观看| 91浏览器在线视频| 欧美无砖砖区免费| 欧美日韩精品是欧美日韩精品| 99麻豆久久久国产精品免费| eeuss鲁片一区二区三区 | 亚洲精品一卡二卡| 一片黄亚洲嫩模| 日韩精品一区第一页| 亚洲第一狼人社区| 久久国产剧场电影| 成人avav影音| 久久国产精品99久久人人澡| 国产激情一区二区三区四区| 91老师国产黑色丝袜在线| 在线免费观看日本欧美| 精品少妇一区二区三区| 综合亚洲深深色噜噜狠狠网站| 亚洲欧美区自拍先锋| 亚洲成人综合网站| 国产福利一区二区| 在线91免费看| 亚洲视频一区二区在线| 久久99精品国产.久久久久久| 91视频一区二区| 久久精品一区二区三区不卡| 日韩精品成人一区二区三区| 91蜜桃网址入口| 中文字幕av一区 二区| 久久国产生活片100| 欧美二区三区的天堂| 亚洲综合男人的天堂| 91一区二区在线观看| 国产目拍亚洲精品99久久精品| 日韩成人av影视| 欧美三区免费完整视频在线观看| 国产精品丝袜久久久久久app| 激情文学综合插| 国产欧美日本一区视频| 国产不卡视频一区| 国产视频在线观看一区二区三区| 国内偷窥港台综合视频在线播放| 在线观看国产一区二区| 精品精品国产高清a毛片牛牛 | 免费在线看一区| 99精品桃花视频在线观看| 色综合夜色一区| 中文一区在线播放| 日本免费新一区视频| 色激情天天射综合网| 亚洲在线观看免费| 色吧成人激情小说| 亚洲成人免费观看| 91黄色免费观看| 亚洲图片有声小说| 欧美亚州韩日在线看免费版国语版| 国产日产亚洲精品系列| 色94色欧美sute亚洲线路一ni| 国产精品国产精品国产专区不片| 精品在线一区二区| 夜色激情一区二区| 久久综合久久99| 99久久精品国产一区二区三区| 久久久99精品免费观看| 在线观看日韩av先锋影音电影院| 激情亚洲综合在线| 美女视频一区二区| 亚洲激情自拍视频| 一区二区不卡在线视频 午夜欧美不卡在| 色久优优欧美色久优优| 久久精品av麻豆的观看方式| 亚洲国产毛片aaaaa无费看| 久久久亚洲午夜电影| 日本久久精品电影| 国产成人一区二区精品非洲| 亚洲一区在线免费观看| 国产日韩影视精品| 国产午夜精品一区二区三区四区| 欧美日韩黄色影视| 欧美在线|欧美| 99在线热播精品免费| 国产传媒欧美日韩成人| 日本美女一区二区三区视频| 亚洲最大色网站| 亚洲视频一区二区免费在线观看|