AIGC動態歡迎閱讀
原標題:大模型也能切片,微軟SliceGPT讓LLAMA-2計算效率大增
關鍵字:模型,矩陣,剪裁,作者,網絡
文章來源:機器之心
內容字數:10504字
內容摘要:
機器之心報道
編輯:張倩、佳琪刪除權重矩陣的一些行和列,讓 LLAMA-2 70B 的參數量減少 25%,模型還能保持 99% 的零樣本任務性能,同時計算效率大大提升。這就是微軟 SliceGPT 的威力。大型語言模型(LLM)通常擁有數十億的參數,用了數萬億 token 的數據進行訓練,這樣的模型訓練、部署成本都非常高。因此,人們經常用各種模型壓縮技術來減少它們的計算需求。
一般來講,這些模型壓縮技術可以分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝和量化。其中,剪枝方法已經存在了一段時間,但許多方法需要在剪枝后進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。
為了解決這一問題,來自蘇黎世聯邦理工學院、微軟的研究者提出了一個名為 SliceGPT 的方法。SliceGPT 的核心思想是刪除權重矩陣中的行和列來降低網絡的嵌入維數,同時保持模型性能。
研究人員表示,有了 SliceGPT,他們只需幾個小時就能使用單個 GPU 壓縮大型模型,即使沒有 RFT,也能在生成和下游任務中保持有競爭力的性能。目前,該論文已經被 ICLR 2024 接收。論文標題:SLICE
原文鏈接:大模型也能切片,微軟SliceGPT讓LLAMA-2計算效率大增
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...