Meta開源首個量化模型Llama 3.2:減少40%內(nèi)存,效率提升2倍以上

AIGC動態(tài)歡迎閱讀
原標(biāo)題:Meta開源首個量化模型Llama 3.2:減少40%內(nèi)存,效率提升2倍以上
關(guān)鍵字:侵權(quán),模型,適配器,數(shù)據(jù),權(quán)重
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
文章轉(zhuǎn)載自公眾號:AIGC開放社區(qū),本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。
全球社交巨頭Meta開源了首個輕量級量化版模型Llama 3.2,一共有10億和30億兩種參數(shù)。
為了使該模型能在手機、平板、筆記本等移動設(shè)備上部署使用,Meta使用了帶有LoRA適配器的量化感知訓(xùn)練和SpinQuant進行了大幅度性能優(yōu)化,平均減少了41%的內(nèi)存使用、減少56%的模型規(guī)模,但推理效率卻提升了2—4倍。
例如,在一加12手機上,Llama 3.2的解碼延遲平均提高了2.5倍,預(yù)填充延遲平均提高了4.2倍,而在三星的S24+、S22兩款手機同樣獲得了類似的數(shù)據(jù)。開源地址:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
在架構(gòu)方面,Llama 3.2 1B和3B采用了標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)。但對所有變壓器塊中的線性層進行了特定的量化處理,采用4位組方式量化權(quán)重,并對激活進行8位每標(biāo)記動態(tài)量化。
分類層則量化為8位每通道的權(quán)重和8位每標(biāo)記的動態(tài)激活量化,同時使用了8位每通道量
原文鏈接:Meta開源首個量化模型Llama 3.2:減少40%內(nèi)存,效率提升2倍以上
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號