AIGC動態歡迎閱讀
原標題:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐
關鍵字:精度,矩陣,權重,開銷,準確率
文章來源:量子位
內容字數:0字
內容摘要:
PACMAN實驗室投稿量子位 | 公眾號 QbitAI一鍵部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!
清華大學計算機系PACMAN實驗室發布開源混合精度推理系統——MixQ。
MixQ支持8比特和4比特混合精度推理,可實現近無損的量化部署并提升推理的吞吐。
△圖1 MixQ吞吐與已有開源工作比較MixQ同時量化權重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實現推理加速;同時,MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準確性,通過系統優化掩蓋高精度訪存開銷。
不僅保持推理的準確性,而且通過使用低精度算力有效提升吞吐,充分發揮硬件計算潛力(圖1)。
同時,研究團隊提供了基于VLLM和Tensorrt-LLM的混合精度推理,用戶可以方便地一鍵部署模型。
△圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理MixQ已支持多個主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。據了解,目前MixQ開源技術已被清程極智等AI行業公司應用在實際產品中。
該工作同時于高性能計算
原文鏈接:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...