<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態7個月前發布 量子位
        483 0 0

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態歡迎閱讀

        原標題:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐
        關鍵字:精度,矩陣,權重,開銷,準確率
        文章來源:量子位
        內容字數:0字

        內容摘要:


        PACMAN實驗室投稿量子位 | 公眾號 QbitAI一鍵部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!
        清華大學計算機系PACMAN實驗室發布開源混合精度推理系統——MixQ。
        MixQ支持8比特和4比特混合精度推理,可實現近無損的量化部署并提升推理的吞吐。
        △圖1 MixQ吞吐與已有開源工作比較MixQ同時量化權重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實現推理加速;同時,MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準確性,通過系統優化掩蓋高精度訪存開銷。
        不僅保持推理的準確性,而且通過使用低精度算力有效提升吞吐,充分發揮硬件計算潛力(圖1)。
        同時,研究團隊提供了基于VLLM和Tensorrt-LLM的混合精度推理,用戶可以方便地一鍵部署模型。
        △圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理MixQ已支持多個主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。據了解,目前MixQ開源技術已被清程極智等AI行業公司應用在實際產品中。
        該工作同時于高性能計算


        原文鏈接:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 特级毛片全部免费播放a一级| 亚洲一区二区三区在线| 日本中文字幕免费看| 免费看大美女大黄大色| 亚洲中文字幕一区精品自拍| 中文字幕乱码免费视频| 亚洲视频免费在线看| 2021在线观看视频精品免费| 亚洲嫩模在线观看| 久久永久免费人妻精品| 久久综合日韩亚洲精品色| 久久免费线看线看| 亚洲综合一区二区精品导航 | 免费无码看av的网站| 亚洲欧美国产国产综合一区| 永久免费视频v片www| 国产天堂亚洲国产碰碰| 日韩精品电影一区亚洲| 久久国产乱子伦精品免费午夜| 在线a亚洲v天堂网2019无码| 国产无遮挡无码视频免费软件 | 亚洲老熟女@TubeumTV| 日本成年免费网站| 亚洲依依成人亚洲社区| 免费观看午夜在线欧差毛片 | 亚洲欧洲日韩在线电影| 免费看国产精品3a黄的视频 | 日本黄色动图免费在线观看| 国产亚洲欧洲精品| 久久免费精彩视频| jlzzjlzz亚洲jzjzjz| 免费的一级片网站| 一级毛片人与动免费观看| 亚洲AV中文无码乱人伦下载| 亚欧色视频在线观看免费| 亚洲人片在线观看天堂无码 | 国产成人亚洲综合色影视| 91热成人精品国产免费| 亚洲av永久中文无码精品 | 久久精品国产亚洲香蕉| 日本XXX黄区免费看|