LLM 推理量化評估：FP8、INT8 與 INT4 的全面對比

AIGC動態(tài)歡迎閱讀

原標(biāo)題：LLM 推理量化評估：FP8、INT8 與 INT4 的全面對比
關(guān)鍵字：模型,騰訊,基準(zhǔn),作者,權(quán)重
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

大會預(yù)告12月5日-6日，2024中國生成式AI大會（上海站）將舉辦。上海科大助理教授、博導(dǎo)顧家遠(yuǎn)，騰訊優(yōu)圖實驗室天衍研究中心負(fù)責(zé)人吳賢，銀河通用機(jī)器人合伙人張直政，趣丸科技副總裁賈朔，曠視研究院高級研究員李華東已確認(rèn)參會，將圍繞大模型、具身智能、AI視頻生成帶來分享，歡迎報名。01背景本文簡要介紹一篇關(guān)于 LLM 推理量化評估的文章。雖然文中某些結(jié)論可能與許多人的直覺不符，但在真實業(yè)務(wù)場景中，我們得出的結(jié)論卻與這些發(fā)現(xiàn)非常相似。例如，在面試中與一些候選人討論 LLM 推理量化時，盡管不少人使用了 H20/H800/4090 等 GPU 用于 LLM 推理，仍普遍堅持使用 INT8 量化，而極少嘗試 FP8 推理；此外，也有不少人認(rèn)為 NVIDIA 的高端 GPU（如 A100 和 H100）主要適用于訓(xùn)練場景，在推理中的成本過高，從而忽視了在推理中使用這些硬件的優(yōu)勢和潛力。
我們的一些實踐經(jīng)驗是：針對 LLM 推理場景，F(xiàn)P8 往往比 INT8、AWQ-INT4 這些方案具有更小的損失，比如 FP8 往往在 1% 以內(nèi)，而 AWQ-INT4 甚至可能達(dá)到 2%-3%，尤其是 INT8

原文鏈接：LLM 推理量化評估：FP8、INT8 與 INT4 的全面對比