AIGC動態歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:做到頭了!清華和哈工大把大模型量化做到了1比特
關鍵字:模型,矩陣,權重,報告,性能
文章來源:夕小瑤科技說
內容字數:8601字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年在追求更高效的機器學習模型部署時,模型量化技術應運而生,它通過降低權重矩陣的位寬來顯著減少大型語言模型的存儲和計算需求。
我們一般的雙精度浮點型double是64位,單精度浮點型float是32位。早年RoBERTa等大模型訓練時把精度壓縮到了16位的半精度FP16。近年來,大語言模型量化一般都只敢玩到4位或8位量化,因為要是把位寬壓得太狠,性能就會直線下滑。
最近,清華和哈工大提出了一個名為OneBit的1位量化感知訓練框架把大模型量化做到了1比特,同時保證了時間和空間效率以及模型性能之間的平衡,至少能達到非量化性能的83%,而且訓練過程還特別穩定。
OneBit框架采用創新的1比特參數表示方法,精確量化LLM。同時,結合高效的矩陣分解初始化策略——Sign-Value-Independent Decomposition(SVID),顯著提升框架收斂速度。通過量化感知知識蒸餾,成功將教師模型的能力遷移至1比特對應模型。
論文標題:OneBit: Towards Extremely Low-bit Large Language Models
公眾號「夕
原文鏈接:今日arXiv最熱NLP大模型論文:做到頭了!清華和哈工大把大模型量化做到了1比特
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...