今日arXiv最熱NLP大模型論文：做到頭了！清華和哈工大把大模型量化做到了1比特

AIGC動態(tài)2年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：今日arXiv最熱NLP大模型論文：做到頭了！清華和哈工大把大模型量化做到了1比特
關鍵字：模型,矩陣,權重,報告,性能
文章來源：夕小瑤科技說
內容字數：8601字

內容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年在追求更高效的機器學習模型部署時，模型量化技術應運而生，它通過降低權重矩陣的位寬來顯著減少大型語言模型的存儲和計算需求。
我們一般的雙精度浮點型double是64位，單精度浮點型float是32位。早年RoBERTa等大模型訓練時把精度壓縮到了16位的半精度FP16。近年來，大語言模型量化一般都只敢玩到4位或8位量化，因為要是把位寬壓得太狠，性能就會直線下滑。
最近，清華和哈工大提出了一個名為OneBit的1位量化感知訓練框架把大模型量化做到了1比特，同時保證了時間和空間效率以及模型性能之間的平衡，至少能達到非量化性能的83%，而且訓練過程還特別穩(wěn)定。
OneBit框架采用創(chuàng)新的1比特參數表示方法，精確量化LLM。同時，結合高效的矩陣分解初始化策略——Sign-Value-Independent Decomposition（SVID），顯著提升框架收斂速度。通過量化感知知識蒸餾，成功將教師模型的能力遷移至1比特對應模型。
論文標題：OneBit: Towards Extremely Low-bit Large Language Models
公眾號「夕

原文鏈接：今日arXiv最熱NLP大模型論文：做到頭了！清華和哈工大把大模型量化做到了1比特