AIGC動態歡迎閱讀
原標題:至高 1.8 倍無損加速!互補量化方案的投機加速
關鍵字:權重,精度,模型,方案,草稿
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | Juntao Zhao等本文作者來自香港大學和哈爾濱工業大學。其同第一作者分別為來自香港大學Netexplo實驗室的博士生Juntao Zhao、Sheng Wang,來自哈爾濱工業大學的本科生Wenhao Lu。本文的指導老師分別為香港大學的Chuan Wu教授和Lingpeng Kong教授。
量化(Quantization)已經被廣泛采用來加速推理并減少大語言模型(LLMs)的內存消耗。雖然激活-權重(Activation-weight)聯合量化通過低精度內核加速了推理過程,但我們發現它在多步推理任務中性能嚴重下降,效果不佳。
Activation-weight 聯合量化方法我們結合量化和投機推理,提出了一種新型量化范式,稱為 Qspec,它無縫集成了兩種互補的量化方案用于投機推理。通過近乎無成本的執行切換,Qspec 使用低精度、快速的激活-權重(Activation-weight)量化起草token,并通過高精度僅權重(Weight only)量化驗證這些token,有效結合了兩種量化方案的優點。
Qspec方法與高精度量化方法相比,Qspec
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...