LLM 推理量化評估:FP8、INT8 與 INT4 的全面對比
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLM 推理量化評估:FP8、INT8 與 INT4 的全面對比
關(guān)鍵字:模型,騰訊,基準(zhǔn),作者,權(quán)重
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大會預(yù)告12月5日-6日,2024中國生成式AI大會(上海站)將舉辦。上海科大助理教授、博導(dǎo)顧家遠(yuǎn),騰訊優(yōu)圖實驗室天衍研究中心負(fù)責(zé)人吳賢,銀河通用機(jī)器人合伙人張直政,趣丸科技副總裁賈朔,曠視研究院高級研究員李華東已確認(rèn)參會,將圍繞大模型、具身智能、AI視頻生成帶來分享,歡迎報名。01背景本文簡要介紹一篇關(guān)于 LLM 推理量化評估的文章。雖然文中某些結(jié)論可能與許多人的直覺不符,但在真實業(yè)務(wù)場景中,我們得出的結(jié)論卻與這些發(fā)現(xiàn)非常相似。例如,在面試中與一些候選人討論 LLM 推理量化時,盡管不少人使用了 H20/H800/4090 等 GPU 用于 LLM 推理,仍普遍堅持使用 INT8 量化,而極少嘗試 FP8 推理;此外,也有不少人認(rèn)為 NVIDIA 的高端 GPU(如 A100 和 H100)主要適用于訓(xùn)練場景,在推理中的成本過高,從而忽視了在推理中使用這些硬件的優(yōu)勢和潛力。
我們的一些實踐經(jīng)驗是:針對 LLM 推理場景,F(xiàn)P8 往往比 INT8、AWQ-INT4 這些方案具有更小的損失,比如 FP8 往往在 1% 以內(nèi),而 AWQ-INT4 甚至可能達(dá)到 2%-3%,尤其是 INT8
原文鏈接:LLM 推理量化評估:FP8、INT8 與 INT4 的全面對比
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: