ICLR 2024 Spotlight | 大語言模型權重、激活的全方位低bit可微量化,已集成進商用APP
AIGC動態(tài)歡迎閱讀
原標題:ICLR 2024 Spotlight | 大語言模型權重、激活的全方位低bit可微量化,已集成進商用APP
關鍵字:權重,模型,參數,方法,內存
文章來源:機器之心
內容字數:8272字
內容摘要:
機器之心專欄
作者:邵文琪模型量化是模型壓縮與加速中的一項關鍵技術,其將模型權重與激活值量化至低 bit,以允許模型占用更少的內存開銷并加快推理速度。對于具有海量參數的大語言模型而言,模型量化顯得更加重要。例如,GPT-3 模型的 175B 參數當使用 FP16 格式加載時,需消耗 350GB 的內存,需要至少 5 張 80GB 的 A100 GPU。
但若是可以將 GPT-3 模型的權重壓縮至 3bit,則可以實現單張 A100-80GB 完成所有模型權重的加載。
現有的大語言模型后訓練量化算法依賴于手工制定量化參數,優(yōu)于缺乏相應的優(yōu)化過程,導致面對低 bit 量化時,現有的方法都表現出顯著的性能下降。盡管量化感知訓練在確定最佳量化配置方面是有效的,但它需要引入大量額外的訓練開銷和訓練數據。尤其是大語言模型本身的計算量進一步阻礙了量化感知訓練在大預言模型量化上的應用。
這引出一個問題:我們能否在保持后訓練量化的時間和數據效率的同時,達到量化感知訓練的性能?
為了解決大語言模型后訓練量化中的量化參數優(yōu)化問題,來自上海人工智能實驗室、香港大學、香港中文大學的研究者們提出了《OmniQua
原文鏈接:ICLR 2024 Spotlight | 大語言模型權重、激活的全方位低bit可微量化,已集成進商用APP
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...