AIGC動態歡迎閱讀
原標題:如何把大模型壓縮到1bit?論文作者這樣說
關鍵字:報告,解讀,模型,方法,技術
文章來源:機器之心
內容字數:2203字
內容摘要:
自從大模型火爆出圈以后,人們對壓縮大模型的愿望從未消減。這是因為,雖然大模型在很多方面表現出優秀的能力,但高昂的部署代價極大提升了它的使用門檻。這種代價主要來自于空間占用和計算量。「模型量化」 通過把大模型的參數轉化為低位寬的表示,進而節省空間占用。目前,主流方法可以在幾乎不損失模型性能的情況下把已有模型壓縮至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墻,讓研究人員望而生畏。
來自清華大學、哈爾濱工業大學的研究者大膽地將 LLM 的權重矩陣量化為 1 位,為 LLM 的極低位寬部署鋪平了道路。針對這一目標,該研究引入了一個名為 OneBit 的 1 位量化感知訓練(QAT)框架,包括一種新穎的 1 位參數表示方法以更好地量化 LLM,以及一種基于矩陣分解的有效參數初始化方法以提高收斂性 QAT 框架的速度。實驗結果表明,OneBit 在僅使用 1 位權重矩陣時通過魯棒的訓練過程實現了良好的性能(至少是非量化性能的 83%)。
為了更好的幫助大家了解這項研究,機器之心最新一期線上分享(即 3 月 18 日 19:00-20:00)邀請到了論文作者之一徐玉莊,為大家解讀他們
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...