<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態11個月前發布 量子位
        494 0 0

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態歡迎閱讀

        原標題:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐
        關鍵字:精度,矩陣,權重,開銷,準確率
        文章來源:量子位
        內容字數:0字

        內容摘要:


        PACMAN實驗室投稿量子位 | 公眾號 QbitAI一鍵部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!
        清華大學計算機系PACMAN實驗室發布開源混合精度推理系統——MixQ。
        MixQ支持8比特和4比特混合精度推理,可實現近無損的量化部署并提升推理的吞吐。
        △圖1 MixQ吞吐與已有開源工作比較MixQ同時量化權重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實現推理加速;同時,MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準確性,通過系統優化掩蓋高精度訪存開銷。
        不僅保持推理的準確性,而且通過使用低精度算力有效提升吞吐,充分發揮硬件計算潛力(圖1)。
        同時,研究團隊提供了基于VLLM和Tensorrt-LLM的混合精度推理,用戶可以方便地一鍵部署模型。
        △圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理MixQ已支持多個主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。據了解,目前MixQ開源技術已被清程極智等AI行業公司應用在實際產品中。
        該工作同時于高性能計算


        原文鏈接:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人精品视频99在线观看免费| 亚洲人成色77777在线观看大| 亚洲AV日韩AV天堂久久| 免费人成又黄又爽的视频在线电影| 在线免费观看毛片网站| 亚洲国产av玩弄放荡人妇| 女人18毛片水真多免费看| 一本色道久久综合亚洲精品蜜桃冫| 久久综合AV免费观看| 亚洲欧美日韩中文二区| 国产国产人免费视频成69大陆| 青青青亚洲精品国产| 亚洲一区二区三区乱码A| 成人网站免费看黄A站视频| 亚洲国语精品自产拍在线观看| 四虎最新永久免费视频| 亚洲国产成人99精品激情在线| 午夜爱爱免费视频| 九一在线完整视频免费观看 | 无码国产精品久久一区免费 | 亚洲熟妇无码久久精品| 久久这里只有精品国产免费10| 成人婷婷网色偷偷亚洲男人的天堂 | 亚洲乱码在线视频| 毛片免费在线观看网址| 最新亚洲人成无码网站| 亚洲色精品vr一区二区三区| 99爱在线精品视频免费观看9| 亚洲乱码在线观看| 亚洲伊人久久综合中文成人网| 久久精品视频免费看| 亚洲va在线va天堂成人| 亚洲精品专区在线观看| 精品无码AV无码免费专区| 亚洲国产精品无码久久九九大片| 亚洲人成网站观看在线播放| 99爱免费观看视频在线| 国产大陆亚洲精品国产| 亚洲一区二区三区电影| 永久免费毛片手机版在线看| 叮咚影视在线观看免费完整版|