大模型也能切片,微軟SliceGPT讓LLAMA-2計(jì)算效率大增
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型也能切片,微軟SliceGPT讓LLAMA-2計(jì)算效率大增
關(guān)鍵字:模型,矩陣,剪裁,作者,網(wǎng)絡(luò)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10504字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:張倩、佳琪刪除權(quán)重矩陣的一些行和列,讓 LLAMA-2 70B 的參數(shù)量減少 25%,模型還能保持 99% 的零樣本任務(wù)性能,同時(shí)計(jì)算效率大大提升。這就是微軟 SliceGPT 的威力。大型語(yǔ)言模型(LLM)通常擁有數(shù)十億的參數(shù),用了數(shù)萬(wàn)億 token 的數(shù)據(jù)進(jìn)行訓(xùn)練,這樣的模型訓(xùn)練、部署成本都非常高。因此,人們經(jīng)常用各種模型壓縮技術(shù)來(lái)減少它們的計(jì)算需求。
一般來(lái)講,這些模型壓縮技術(shù)可以分為四類(lèi):蒸餾、張量分解(包括低秩因式分解)、剪枝和量化。其中,剪枝方法已經(jīng)存在了一段時(shí)間,但許多方法需要在剪枝后進(jìn)行恢復(fù)微調(diào)(RFT)以保持性能,這使得整個(gè)過(guò)程成本高昂且難以擴(kuò)展。
為了解決這一問(wèn)題,來(lái)自蘇黎世聯(lián)邦理工學(xué)院、微軟的研究者提出了一個(gè)名為 SliceGPT 的方法。SliceGPT 的核心思想是刪除權(quán)重矩陣中的行和列來(lái)降低網(wǎng)絡(luò)的嵌入維數(shù),同時(shí)保持模型性能。
研究人員表示,有了 SliceGPT,他們只需幾個(gè)小時(shí)就能使用單個(gè) GPU 壓縮大型模型,即使沒(méi)有 RFT,也能在生成和下游任務(wù)中保持有競(jìng)爭(zhēng)力的性能。目前,該論文已經(jīng)被 ICLR 2024 接收。論文標(biāo)題:SLICE
原文鏈接:大模型也能切片,微軟SliceGPT讓LLAMA-2計(jì)算效率大增
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)