大模型也能切片，微軟SliceGPT讓LLAMA-2計算效率大增

AIGC動態(tài)2年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：大模型也能切片，微軟SliceGPT讓LLAMA-2計算效率大增
關(guān)鍵字：模型,矩陣,剪裁,作者,網(wǎng)絡(luò)
文章來源：機器之心
內(nèi)容字數(shù)：10504字

內(nèi)容摘要：

機器之心報道
編輯：張倩、佳琪刪除權(quán)重矩陣的一些行和列，讓 LLAMA-2 70B 的參數(shù)量減少 25%，模型還能保持 99% 的零樣本任務(wù)性能，同時計算效率大大提升。這就是微軟 SliceGPT 的威力。大型語言模型（LLM）通常擁有數(shù)十億的參數(shù)，用了數(shù)萬億 token 的數(shù)據(jù)進行訓(xùn)練，這樣的模型訓(xùn)練、部署成本都非常高。因此，人們經(jīng)常用各種模型壓縮技術(shù)來減少它們的計算需求。
一般來講，這些模型壓縮技術(shù)可以分為四類：蒸餾、張量分解（包括低秩因式分解）、剪枝和量化。其中，剪枝方法已經(jīng)存在了一段時間，但許多方法需要在剪枝后進行恢復(fù)微調(diào)（RFT）以保持性能，這使得整個過程成本高昂且難以擴展。
為了解決這一問題，來自蘇黎世聯(lián)邦理工學(xué)院、微軟的研究者提出了一個名為 SliceGPT 的方法。SliceGPT 的核心思想是刪除權(quán)重矩陣中的行和列來降低網(wǎng)絡(luò)的嵌入維數(shù)，同時保持模型性能。
研究人員表示，有了 SliceGPT，他們只需幾個小時就能使用單個 GPU 壓縮大型模型，即使沒有 RFT，也能在生成和下游任務(wù)中保持有競爭力的性能。目前，該論文已經(jīng)被 ICLR 2024 接收。論文標(biāo)題：SLICE

原文鏈接：大模型也能切片，微軟SliceGPT讓LLAMA-2計算效率大增