單卡搞定Llama 3.1 405B,讓大模型輕松瘦身!超強(qiáng)壓縮工具包來(lái)了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:?jiǎn)慰ǜ愣↙lama 3.1 405B,讓大模型輕松瘦身!超強(qiáng)壓縮工具包來(lái)了
關(guān)鍵字:模型,算法,工具包,精度,團(tuán)隊(duì)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
模型工具鏈團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI單卡搞定Llama 3.1(405B),最新大模型壓縮工具來(lái)了!
最近Llama-3.1登上開(kāi)源頂峰,但其最強(qiáng)的405B版本模型900多GB的內(nèi)存需求,對(duì)資源構(gòu)成了更加苛刻的挑戰(zhàn)。
北航、商湯、南洋理工等團(tuán)隊(duì)聯(lián)合推出的大模型壓縮工具與基準(zhǔn)LLMC,能很好解決這一問(wèn)題。
它使得一張80G A100即可完成Llama 3.1 405B的校準(zhǔn)和評(píng)估,從而實(shí)現(xiàn)以超低成本進(jìn)行量化。
它支持多種壓縮算法、模型和推理后端,具有強(qiáng)大的擴(kuò)展性和全方位的評(píng)估能力。
目前,研究團(tuán)隊(duì)已將使用方法放在GitHub主頁(yè)上,戳文末鏈接即可獲取。
Llama3.1 更大也更難壓縮低比特量化是解決資源受限問(wèn)題的通用技術(shù)之一。為此,相關(guān)研究人員運(yùn)用了LLMC對(duì)Llama 3.1進(jìn)行了量化壓縮。
結(jié)果如表1所示,采用LLMC中的某些算法,例如QuaRot和AWQ等算法在70B和405B參數(shù)量的模型上,均能有效保持量化精度。而最為簡(jiǎn)單的“四舍五入”(Naive)算法在這些大規(guī)模模型上則表現(xiàn)出顯著的精度下降,特別是在激活被量化的情況下。
該研究團(tuán)隊(duì)發(fā)現(xiàn),Llama 3.1系列
原文鏈接:單卡搞定Llama 3.1 405B,讓大模型輕松瘦身!超強(qiáng)壓縮工具包來(lái)了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: