如何把大模型壓縮到1bit？論文作者這樣說

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：如何把大模型壓縮到1bit？論文作者這樣說
關鍵字：報告,解讀,模型,方法,技術
文章來源：機器之心
內容字數：2203字

內容摘要：

自從大模型火爆出圈以后，人們對壓縮大模型的愿望從未消減。這是因為，雖然大模型在很多方面表現出優秀的能力，但高昂的部署代價極大提升了它的使用門檻。這種代價主要來自于空間占用和計算量。「模型量化」通過把大模型的參數轉化為低位寬的表示，進而節省空間占用。目前，主流方法可以在幾乎不損失模型性能的情況下把已有模型壓縮至 4bit。然而，低于 3bit 的量化像一堵不可逾越的高墻，讓研究人員望而生畏。
來自清華大學、哈爾濱工業大學的研究者大膽地將 LLM 的權重矩陣量化為 1 位，為 LLM 的極低位寬部署鋪平了道路。針對這一目標，該研究引入了一個名為 OneBit 的 1 位量化感知訓練（QAT）框架，包括一種新穎的 1 位參數表示方法以更好地量化 LLM，以及一種基于矩陣分解的有效參數初始化方法以提高收斂性 QAT 框架的速度。實驗結果表明，OneBit 在僅使用 1 位權重矩陣時通過魯棒的訓練過程實現了良好的性能（至少是非量化性能的 83%）。
為了更好的幫助大家了解這項研究，機器之心最新一期線上分享（即 3 月 18 日 19:00-20:00）邀請到了論文作者之一徐玉莊，為大家解讀他們

原文鏈接：如何把大模型壓縮到1bit？論文作者這樣說