清華開源混合精度推理系統MixQ，實現大模型近無損量化并提升推理吞吐

AIGC動態歡迎閱讀

原標題：清華開源混合精度推理系統MixQ，實現大模型近無損量化并提升推理吞吐
關鍵字：精度,矩陣,權重,開銷,準確率
文章來源：量子位
內容字數：0字

內容摘要：

PACMAN實驗室投稿量子位 | 公眾號 QbitAI一鍵部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！
清華大學計算機系PACMAN實驗室發布開源混合精度推理系統——MixQ。
MixQ支持8比特和4比特混合精度推理，可實現近無損的量化部署并提升推理的吞吐。
△圖1 MixQ吞吐與已有開源工作比較MixQ同時量化權重和激活，使用低精度張量核心（INT8/INT4 Tensor Core）實現推理加速；同時，MixQ提取激活中少量的離群值，使用高精度張量核心（FP16 Tensor Core）保持推理準確性，通過系統優化掩蓋高精度訪存開銷。
不僅保持推理的準確性，而且通過使用低精度算力有效提升吞吐，充分發揮硬件計算潛力（圖1）。
同時，研究團隊提供了基于VLLM和Tensorrt-LLM的混合精度推理，用戶可以方便地一鍵部署模型。
△圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理MixQ已支持多個主流大模型LLaMA3，Qwen2，Baichuan2，ChatGLM等。據了解，目前MixQ開源技術已被清程極智等AI行業公司應用在實際產品中。
該工作同時于高性能計算

原文鏈接：清華開源混合精度推理系統MixQ，實現大模型近無損量化并提升推理吞吐

聯系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

清華開源混合精度推理系統MixQ，實現大模型近無損量化并提升推理吞吐

AIGC動態歡迎閱讀

內容摘要：

聯系作者

NeurIPS 2024 | 標簽噪聲下圖神經網絡有了首個綜合基準庫，還開源

PPT 滿屏文字？救星來了！這款神器幫你一鍵生成專業插圖！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

清華開源混合精度推理系統MixQ，實現大模型近無損量化并提升推理吞吐

AIGC動態歡迎閱讀

內容摘要：

聯系作者

NeurIPS 2024 | 標簽噪聲下圖神經網絡有了首個綜合基準庫，還開源

PPT 滿屏文字？ 救星來了！這款神器幫你一鍵生成專業插圖！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

PPT 滿屏文字？救星來了！這款神器幫你一鍵生成專業插圖！