如何把大模型壓縮到1bit?論文作者這樣說
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:如何把大模型壓縮到1bit?論文作者這樣說
關(guān)鍵字:報(bào)告,解讀,模型,方法,技術(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):2203字
內(nèi)容摘要:
自從大模型火爆出圈以后,人們對(duì)壓縮大模型的愿望從未消減。這是因?yàn)?,雖然大模型在很多方面表現(xiàn)出優(yōu)秀的能力,但高昂的部署代價(jià)極大提升了它的使用門檻。這種代價(jià)主要來自于空間占用和計(jì)算量?!改P土炕?通過把大模型的參數(shù)轉(zhuǎn)化為低位寬的表示,進(jìn)而節(jié)省空間占用。目前,主流方法可以在幾乎不損失模型性能的情況下把已有模型壓縮至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墻,讓研究人員望而生畏。
來自清華大學(xué)、哈爾濱工業(yè)大學(xué)的研究者大膽地將 LLM 的權(quán)重矩陣量化為 1 位,為 LLM 的極低位寬部署鋪平了道路。針對(duì)這一目標(biāo),該研究引入了一個(gè)名為 OneBit 的 1 位量化感知訓(xùn)練(QAT)框架,包括一種新穎的 1 位參數(shù)表示方法以更好地量化 LLM,以及一種基于矩陣分解的有效參數(shù)初始化方法以提高收斂性 QAT 框架的速度。實(shí)驗(yàn)結(jié)果表明,OneBit 在僅使用 1 位權(quán)重矩陣時(shí)通過魯棒的訓(xùn)練過程實(shí)現(xiàn)了良好的性能(至少是非量化性能的 83%)。
為了更好的幫助大家了解這項(xiàng)研究,機(jī)器之心最新一期線上分享(即 3 月 18 日 19:00-20:00)邀請(qǐng)到了論文作者之一徐玉莊,為大家解讀他們
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)