AIGC動態歡迎閱讀
內容摘要:
?生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯片專場、智算集群技術論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業的嘉賓已確認演講或討論。掃名或購票~近年來,隨著Transformer、MOE架構的提出,使得深度學習模型輕松突破上萬億規模參數,從而導致模型變得越來越大,因此,我們需要一些大模型壓縮技術來降低模型部署的成本,并提升模型的推理性能。模型壓縮主要分為如下幾類:
剪枝(Pruning)
知識蒸餾(Knowledge Distillation)
量化Quantization)本系列將針對一些常見大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)進行講述。
大模型量化概述
量化感知訓練:
大模型量化感知訓練技術原理:LLM-QAT
大模型量化感知微調技術原理:QLoRA
訓練后量化:
大模型量化技術原理:GPTQ、LLM.in
原文鏈接:大模型量化技術原理:FP8
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...