AIGC動態歡迎閱讀
原標題:LLM 推理量化評估:FP8、INT8 與 INT4 的全面對比
關鍵字:模型,騰訊,基準,作者,權重
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
大會預告12月5日-6日,2024中國生成式AI大會(上海站)將舉辦。上海科大助理教授、博導顧家遠,騰訊優圖實驗室天衍研究中心負責人吳賢,銀河通用機器人合伙人張直政,趣丸科技副總裁賈朔,曠視研究院高級研究員李華東已確認參會,將圍繞大模型、具身智能、AI視頻生成帶來分享,歡迎報名。01背景本文簡要介紹一篇關于 LLM 推理量化評估的文章。雖然文中某些結論可能與許多人的直覺不符,但在真實業務場景中,我們得出的結論卻與這些發現非常相似。例如,在面試中與一些候選人討論 LLM 推理量化時,盡管不少人使用了 H20/H800/4090 等 GPU 用于 LLM 推理,仍普遍堅持使用 INT8 量化,而極少嘗試 FP8 推理;此外,也有不少人認為 NVIDIA 的高端 GPU(如 A100 和 H100)主要適用于訓練場景,在推理中的成本過高,從而忽視了在推理中使用這些硬件的優勢和潛力。
我們的一些實踐經驗是:針對 LLM 推理場景,FP8 往往比 INT8、AWQ-INT4 這些方案具有更小的損失,比如 FP8 往往在 1% 以內,而 AWQ-INT4 甚至可能達到 2%-3%,尤其是 INT8
原文鏈接:LLM 推理量化評估:FP8、INT8 與 INT4 的全面對比
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...