大模型量化技術(shù)原理:FP8
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型量化技術(shù)原理:FP8
關(guān)鍵字:累加器,精度,模型,權(quán)重,表示
文章來源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
?生成式AI時(shí)代最火AI芯片峰會(huì)下月來襲!9月6-7日,智猩猩發(fā)起主辦的2024全球AI芯片峰會(huì)將在北京盛大舉行。峰會(huì)設(shè)有開幕式、數(shù)據(jù)中心AI芯片專場、邊緣/端側(cè)AI芯片專場、智算集群技術(shù)論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵(lì)飛、中國移動(dòng)研究院、北極雄芯等40+企業(yè)的嘉賓已確認(rèn)演講或討論。掃名或購票~近年來,隨著Transformer、MOE架構(gòu)的提出,使得深度學(xué)習(xí)模型輕松突破上萬億規(guī)模參數(shù),從而導(dǎo)致模型變得越來越大,因此,我們需要一些大模型壓縮技術(shù)來降低模型部署的成本,并提升模型的推理性能。模型壓縮主要分為如下幾類:
剪枝(Pruning)
知識(shí)蒸餾(Knowledge Distillation)
量化Quantization)本系列將針對一些常見大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)進(jìn)行講述。
大模型量化概述
量化感知訓(xùn)練:
大模型量化感知訓(xùn)練技術(shù)原理:LLM-QAT
大模型量化感知微調(diào)技術(shù)原理:QLoRA
訓(xùn)練后量化:
大模型量化技術(shù)原理:GPTQ、LLM.in
原文鏈接:大模型量化技術(shù)原理:FP8
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: