字節(jié)開(kāi)源大模型量化新思路,2-bit量化模型精度齊平fp16
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:字節(jié)開(kāi)源大模型量化新思路,2-bit量化模型精度齊平fp16
關(guān)鍵字:字節(jié)跳動(dòng),模型,部分,精度,整數(shù)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8643字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com隨著深度學(xué)語(yǔ)言模型的越來(lái)越火爆,大語(yǔ)言模型越做越大,使得其推理成本也水漲船高。模型量化,成為一個(gè)熱門(mén)的研究課題。
近日,字節(jié)跳動(dòng)語(yǔ)音團(tuán)隊(duì)推出一個(gè)全新的量化思路,拋棄傳統(tǒng)的量化范式,從數(shù)學(xué)優(yōu)化的角度來(lái)對(duì)量化任務(wù)建模。文章放在了 arXiv,代碼已經(jīng)開(kāi)源,可以一鍵復(fù)現(xiàn)文中的所有結(jié)果:論文鏈接:https://arxiv.org/abs/2404.12759
項(xiàng)目鏈接:https://github.com/bytedance/decoupleQ
W2 算子:https://github.com/NVIDIA/TensorRT-LLM/pull/1568
1. 背景
大模型的迅速發(fā)展,使得推理成本越來(lái)越高。模型量化,作為一個(gè)降低推理成本的技術(shù)方案,得到了越來(lái)越多的
原文鏈接:字節(jié)開(kāi)源大模型量化新思路,2-bit量化模型精度齊平fp16
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)