單卡搞定Llama 3.1 405B，讓大模型輕松瘦身！超強(qiáng)壓縮工具包來(lái)了

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：?jiǎn)慰ǜ愣↙lama 3.1 405B，讓大模型輕松瘦身！超強(qiáng)壓縮工具包來(lái)了
關(guān)鍵字：模型,算法,工具包,精度,團(tuán)隊(duì)
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

模型工具鏈團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI單卡搞定Llama 3.1（405B），最新大模型壓縮工具來(lái)了！
最近Llama-3.1登上開(kāi)源頂峰，但其最強(qiáng)的405B版本模型900多GB的內(nèi)存需求，對(duì)資源構(gòu)成了更加苛刻的挑戰(zhàn)。
北航、商湯、南洋理工等團(tuán)隊(duì)聯(lián)合推出的大模型壓縮工具與基準(zhǔn)LLMC，能很好解決這一問(wèn)題。
它使得一張80G A100即可完成Llama 3.1 405B的校準(zhǔn)和評(píng)估，從而實(shí)現(xiàn)以超低成本進(jìn)行量化。
它支持多種壓縮算法、模型和推理后端，具有強(qiáng)大的擴(kuò)展性和全方位的評(píng)估能力。
目前，研究團(tuán)隊(duì)已將使用方法放在GitHub主頁(yè)上，戳文末鏈接即可獲取。
Llama3.1 更大也更難壓縮低比特量化是解決資源受限問(wèn)題的通用技術(shù)之一。為此，相關(guān)研究人員運(yùn)用了LLMC對(duì)Llama 3.1進(jìn)行了量化壓縮。
結(jié)果如表1所示，采用LLMC中的某些算法，例如QuaRot和AWQ等算法在70B和405B參數(shù)量的模型上，均能有效保持量化精度。而最為簡(jiǎn)單的“四舍五入”（Naive）算法在這些大規(guī)模模型上則表現(xiàn)出顯著的精度下降，特別是在激活被量化的情況下。
該研究團(tuán)隊(duì)發(fā)現(xiàn)，Llama 3.1系列

原文鏈接：單卡搞定Llama 3.1 405B，讓大模型輕松瘦身！超強(qiáng)壓縮工具包來(lái)了