AIGC動態歡迎閱讀
原標題:Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上
關鍵字:侵權,模型,適配器,數據,權重
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
文章轉載自公眾號:AIGC開放社區,本文只做學術/技術分享,如有侵權,聯系刪文。
全球社交巨頭Meta開源了首個輕量級量化版模型Llama 3.2,一共有10億和30億兩種參數。
為了使該模型能在手機、平板、筆記本等移動設備上部署使用,Meta使用了帶有LoRA適配器的量化感知訓練和SpinQuant進行了大幅度性能優化,平均減少了41%的內存使用、減少56%的模型規模,但推理效率卻提升了2—4倍。
例如,在一加12手機上,Llama 3.2的解碼延遲平均提高了2.5倍,預填充延遲平均提高了4.2倍,而在三星的S24+、S22兩款手機同樣獲得了類似的數據。開源地址:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
在架構方面,Llama 3.2 1B和3B采用了標準的Transformer結構。但對所有變壓器塊中的線性層進行了特定的量化處理,采用4位組方式量化權重,并對激活進行8位每標記動態量化。
分類層則量化為8位每通道的權重和8位每標記的動態激活量化,同時使用了8位每通道量
原文鏈接:Meta開源首個量化模型Llama 3.2:減少40%內存,效率提升2倍以上
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...