解決LLaMA、BERT等部署難題:首個(gè)4-bit浮點(diǎn)量化LLM來了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:解決LLaMA、BERT等部署難題:首個(gè)4-bit浮點(diǎn)量化LLM來了
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5615字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部這篇文章給出了大模型 FP 量化的解決方案。大語言模型 (LLM) 壓縮一直備受關(guān)注,后訓(xùn)練量化(Post-training Quantization) 是其中一種常用算法,但是現(xiàn)有 PTQ 方法大多數(shù)都是 integer 量化,且當(dāng)比特?cái)?shù)低于 8 時(shí),量化后模型的準(zhǔn)確率會下降非常多。想較于 Integer (INT) 量化,F(xiàn)loating Point (FP) 量化能更好的表示長尾分布,因而越來越多的硬件平臺開始支持 FP 量化。而這篇文章給出了大模型 FP 量化的解決方案。文章發(fā)表在 EMNLP 2023 上。論文地址:https://arxiv.org/abs/2310.16836代碼地址:https://github.com/nbasyl/LLM-FP4要了解本文,必須要先具備基本的有關(guān) Floating Point Format 以及 Floating…
原文鏈接:點(diǎn)此閱讀原文:解決LLaMA、BERT等部署難題:首個(gè)4-bit浮點(diǎn)量化LLM來了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...