AIGC動態歡迎閱讀
原標題:清華、哈工大把大模型壓縮到了1bit,把大模型放在手機里跑的愿望就快要實現了!
關鍵字:模型,矩陣,參數,方法,作者
文章來源:機器之心
內容字數:8497字
內容摘要:
機器之心專欄
機器之心編輯部近期,清華大學和哈爾濱工業大合發布了一篇論文:把大模型壓縮到 1.0073 個比特時,仍然能使其保持約 83% 的性能!自從大模型火爆出圈以后,人們對壓縮大模型的愿望從未消減。這是因為,雖然大模型在很多方面表現出優秀的能力,但高昂的的部署代價極大提升了它的使用門檻。這種代價主要來自于空間占用和計算量。「模型量化」通過把大模型的參數轉化為低位寬的表示,進而節省空間占用。目前,主流方法可以在幾乎不損失模型性能的情況下把已有模型壓縮至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墻,讓研究人員望而生畏。
圖 1 : 量化模型的困惑度在 2bit 時迅速上升
近期,一篇由清華大學、哈爾濱工業大學合作發表在 arXiv 上的論文為突破這一阻礙帶來了希望,在國內外學術圈引起了不小的關注。這篇論文也在一周前登上 huggingface 的熱點論文,并被著名論文推薦師 AK 推薦。研究團隊直接越過 2bit 這一量化級別,大膽地進行了 1bit 量化的嘗試,這在模型量化的研究中尚屬首次。論文標題:OneBit: Towards Extremely Low-b
原文鏈接:清華、哈工大把大模型壓縮到了1bit,把大模型放在手機里跑的愿望就快要實現了!
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...