<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態9個月前發布 量子位
        485 0 0

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態歡迎閱讀

        原標題:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐
        關鍵字:精度,矩陣,權重,開銷,準確率
        文章來源:量子位
        內容字數:0字

        內容摘要:


        PACMAN實驗室投稿量子位 | 公眾號 QbitAI一鍵部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!
        清華大學計算機系PACMAN實驗室發布開源混合精度推理系統——MixQ。
        MixQ支持8比特和4比特混合精度推理,可實現近無損的量化部署并提升推理的吞吐。
        △圖1 MixQ吞吐與已有開源工作比較MixQ同時量化權重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實現推理加速;同時,MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準確性,通過系統優化掩蓋高精度訪存開銷。
        不僅保持推理的準確性,而且通過使用低精度算力有效提升吞吐,充分發揮硬件計算潛力(圖1)。
        同時,研究團隊提供了基于VLLM和Tensorrt-LLM的混合精度推理,用戶可以方便地一鍵部署模型。
        △圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理MixQ已支持多個主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。據了解,目前MixQ開源技術已被清程極智等AI行業公司應用在實際產品中。
        該工作同時于高性能計算


        原文鏈接:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 一个人看的在线免费视频| 亚洲国产精品张柏芝在线观看| 国产成人精品一区二区三区免费| aa毛片免费全部播放完整| 成人亚洲网站www在线观看| 亚洲精品NV久久久久久久久久| 亚洲av无码专区在线电影| 成年女人毛片免费观看97| 最新亚洲春色Av无码专区| 成人免费无毒在线观看网站| 国产精品亚洲专区在线观看| 卡一卡二卡三在线入口免费| 久久精品亚洲福利| free哆拍拍免费永久视频| 成人浮力影院免费看| 亚洲免费观看网站| 午夜视频免费成人| 老外毛片免费视频播放| 免费观看激色视频网站bd | 成人毛片免费观看视频在线| 国产成人精品亚洲2020| 国产成人青青热久免费精品| 成人午夜影视全部免费看| 毛片免费观看网址| 色噜噜的亚洲男人的天堂| 国产精品亚洲不卡一区二区三区| 久久九九免费高清视频| 老司机亚洲精品影院| 中文字幕在线免费播放| 亚洲日本在线看片| 免费涩涩在线视频网| 亚洲欧洲国产成人精品| 免费无码又爽又刺激高潮| 国产成人无码精品久久久久免费| 久久亚洲免费视频| 两性色午夜免费视频| 亚洲日韩乱码中文无码蜜桃 | 免费一级e一片在线播放| 国产免费网站看v片在线| 日本亚洲色大成网站www久久 | 亚洲精品无码专区久久久 |