清華&面壁開源高效壓縮技術(shù):一塊 80 G A100 輕松加載 50 個(gè) 7B 模型
作者 | OpenBMB 開源社區(qū) 近日,清華大學(xué)與面壁智能團(tuán)隊(duì)提出了 Delta Compression(Delta 壓縮)技術(shù),它通過存儲(chǔ)主干模型與任務(wù)專用模型之間的參數(shù)差值,顯著降低了模型對(duì)顯卡的存儲(chǔ)需求。在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步結(jié)合低秩分解與低比特量化,提出混合精度壓縮方法 Delta-CoMe。該方法在幾乎不損失任務(wù)性能(如數(shù)學(xué)推理、代碼生成和多模態(tài)任務(wù))的前提下,大幅提升了模型推理效率,從而實(shí)現(xiàn)一塊 80G A100 GPU 無(wú)損性能加載多達(dá) 50 個(gè) 7B 模型。相比于傳統(tǒng)的微調(diào)方法,Delta-CoMe 展現(xiàn)出了更高的效率和靈活性,該技術(shù)有效改善了不同應(yīng)用場(chǎng)景對(duì)模型進(jìn)行微調(diào)時(shí)的計(jì)算與存儲(chǔ)開銷難題,為終端設(shè)備帶來了輕量化的大模型推理能力,同時(shí)為大模型在多任務(wù)、多租戶、端側(cè)場(chǎng)景的模型部署提供了全新的低成本、高效率解決方案。下一步或許我們正在邁向一個(gè)“模型共享”而非“模型堆疊”的時(shí)代,讓每個(gè)參數(shù)都發(fā)揮最大效能,讓每臺(tái)設(shè)備都能加載無(wú)限可能。? 論文鏈接:?? https://arxiv.org/abs/2406.08903 ? GitHub 地址:??https://github.com/thunlp/Delta-CoMe
Delta-CoMe 方法介紹
微調(diào)是增強(qiáng)預(yù)訓(xùn)練模型的重要手段,不同任務(wù)往往需要不同的微調(diào)方式。例如 Luo et al.[1] 提出 RLEIF 通過 Evove-instruction 來增強(qiáng)模型數(shù)學(xué)推理能力;Wei et al.[2] 利用 Code snnipet 合成高質(zhì)量的指令數(shù)據(jù)來增加模型的代碼能力。然而,這些方法通常依賴高質(zhì)量數(shù)據(jù),并需要精心設(shè)計(jì)的策略才能實(shí)現(xiàn)顯著的效果。在一些場(chǎng)景中往往需要具有不同能力的 LLM 同時(shí)處理問題,例如多租戶場(chǎng)景、多任務(wù)場(chǎng)景以及端側(cè)場(chǎng)景等等。一種自然的解決方案是部署單個(gè)通用模型,以及多個(gè)具有專有能力的 Delta。以 Bitdelta[3] 為例,它通過將模型的 Delta 壓縮到 1bit,有效保留了模型在日常對(duì)話場(chǎng)景中的基本功能。盡管壓縮方法在存儲(chǔ)和推理效率上表現(xiàn)出色,其在更復(fù)雜的任務(wù)(如數(shù)學(xué)推理和代碼生成)上仍存在明顯的能力瓶頸。針對(duì)這一挑戰(zhàn),清華 NLP 實(shí)驗(yàn)室聯(lián)合北京大學(xué)和上海財(cái)經(jīng)大學(xué)提出 Delta-CoMe。這一方法結(jié)合低秩和低比特量化技術(shù),不僅顯著提升了模型在復(fù)雜任務(wù)上的表現(xiàn),還兼顧了壓縮效率和實(shí)際應(yīng)用需求,為模型的高效部署提供了一種新思路。與前人的方法相比,Delta-CoMe 方法的優(yōu)點(diǎn)在于:結(jié)合低秩與低比特量化,利用了 Delta 低秩的特點(diǎn),并發(fā)現(xiàn)低秩分解后的 Delta 是長(zhǎng)尾分布的;之后采用混合精度量化進(jìn)一步節(jié)省;性能幾乎無(wú)損,相比于 Bitdelta 等方法,在 math,code,Multi-modal 等復(fù)雜任務(wù)上,性能與原始模型表現(xiàn)基本接近;推理速度提升,實(shí)現(xiàn)了 Triton kernel 對(duì)比 Pytorch 實(shí)現(xiàn)方式,帶來近 3x 的推理速度提升;超過 Delta-tuning 支持多精度 Backbone,Delta-CoMe 顯著優(yōu)于 Delta-tuning 并可以用在多種精度的 Backbone 上。Delta-CoMe 首先采用 SVD 進(jìn)行低秩分解,Delta 具有低秩性,秩降低到原來的 1/8 性能基本保持不變。經(jīng)過低秩分解之后,我們發(fā)現(xiàn)奇異向量是長(zhǎng)尾分布的,較大奇異向量對(duì)最終的結(jié)果貢獻(xiàn)較大。一個(gè)自然的想法,我們可以根據(jù)奇異向量大小進(jìn)行混合精度量化,將較大的奇異值對(duì)應(yīng)的奇異向量用較高精度表示。
實(shí)驗(yàn)結(jié)果
多個(gè)開源模型和 Benchmark 的實(shí)驗(yàn)驗(yàn)證了該方法的有效性。使用 Llama-2-7B 作為主干模型,在數(shù)學(xué)、代碼、對(duì)話、多模態(tài)等多個(gè)任務(wù)中進(jìn)行實(shí)驗(yàn),Delta-CoMe 展現(xiàn)出平均幾乎無(wú)損的性能。此外,實(shí)驗(yàn)還在 Mistral、Llama-3 等其它主干模型上進(jìn)行驗(yàn)證。通過實(shí)現(xiàn) Triton kernel,相比于 Pytorch 的實(shí)現(xiàn)方式,推理速度提升了約 3 倍。實(shí)驗(yàn)結(jié)果表明,使用一塊 80G 的 A100 GPU 可以加載 50 個(gè) 7B 模型。Delta-CoMe 對(duì)比 Delta-tuning 在相同的存儲(chǔ)開銷下,性能顯著提升。
總 結(jié)
Delta-CoMe 通過結(jié)合低秩分解和低比特量化,不僅實(shí)現(xiàn)了大幅度的存儲(chǔ)壓縮,還在復(fù)雜任務(wù)如數(shù)學(xué)推理、代碼生成和多模態(tài)任務(wù)上維持了與原始模型相當(dāng)?shù)男阅鼙憩F(xiàn)。相比于傳統(tǒng)的微調(diào)方法,Delta-CoMe 展現(xiàn)出了更高的效率和靈活性,尤其在多租戶和多任務(wù)場(chǎng)景中具有顯著的應(yīng)用價(jià)值。此外,借助 Triton kernel 的優(yōu)化,推理速度得到了顯著提升,使得部署大規(guī)模模型成為可能。未來,這一方法的潛力不僅在于進(jìn)一步優(yōu)化模型存儲(chǔ)和推理速度,也有望在更廣泛的實(shí)際應(yīng)用中推動(dòng)大語(yǔ)言模型的普及和高效運(yùn)作。參考文獻(xiàn)[1]Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.[2] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b[3] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.InfoQ 老友!請(qǐng)留步!極客邦 1 號(hào)客服上線工作啦!后續(xù)我將通過微信視頻號(hào),以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢(shì)、創(chuàng)業(yè)經(jīng)驗(yàn)、商業(yè)踩坑教訓(xùn)等精彩內(nèi)容,和大家一同成長(zhǎng),開啟知識(shí)交流之旅歡迎掃碼關(guān)注我的微信視頻號(hào)~會(huì)議推薦12 月 13 日至 14 日(下周五至周六),AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)將在北京盛大開幕!本次大會(huì)匯聚 70+ 位 AI 及技術(shù)領(lǐng)域的頂尖專家,深入探討大模型與推理、AI Agent、多模態(tài)、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區(qū)活動(dòng),帶你深入探索大模型的最新實(shí)踐與未來趨勢(shì)。年度最后一次 AI 盛宴,讓我們一起見證 AI 未來。今日薦文裁掉 1.5 萬(wàn)人后,英特爾傳奇 CEO :18 歲入職,風(fēng)雨 40 載,如今成了“背鍋俠”?四年詐騙投資人千萬(wàn)美元,哈佛系 AI 公司創(chuàng)始人被捕!曾榮登福布斯榜,如今面臨 42 年監(jiān)禁北京一AI創(chuàng)業(yè)公司招0薪CTO;網(wǎng)易否認(rèn)深圳公司全部裁員;94歲巴菲特公布后事安排 |AI周報(bào)又又又給 AI 發(fā)明新語(yǔ)言了!卡內(nèi)基梅隆大學(xué)讓計(jì)算機(jī)理解人的想法后自動(dòng) coding,結(jié)果翻車了!AI 監(jiān)工軟件盯梢員工太瘋狂:5 秒截屏,打字慢、上網(wǎng)久都拿“紅牌”!網(wǎng)友狂噴,但巨頭爭(zhēng)相使用你也「在看」嗎???