<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華&面壁開源高效壓縮技術(shù):一塊 80 G A100 輕松加載 50 個(gè) 7B 模型

        AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 AI前線
        306 0 0

        作者 | OpenBMB 開源社區(qū) 近日,清華大學(xué)與面壁智能團(tuán)隊(duì)提出了 Delta Compression(Delta 壓縮)技術(shù),它通過存儲(chǔ)主干模型與任務(wù)專用模型之間的參數(shù)差值,顯著降低了模型對(duì)顯卡的存儲(chǔ)需求。在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步結(jié)合低秩分解與低比特量化,提出混合精度壓縮方法 Delta-CoMe。該方法在幾乎不損失任務(wù)性能(如數(shù)學(xué)推理、代碼生成和多模態(tài)任務(wù))的前提下,大幅提升了模型推理效率,從而實(shí)現(xiàn)一塊 80G A100 GPU 無(wú)損性能加載多達(dá) 50 個(gè) 7B 模型。相比于傳統(tǒng)的微調(diào)方法,Delta-CoMe 展現(xiàn)出了更高的效率和靈活性,該技術(shù)有效改善了不同應(yīng)用場(chǎng)景對(duì)模型進(jìn)行微調(diào)時(shí)的計(jì)算與存儲(chǔ)開銷難題,為終端設(shè)備帶來了輕量化的大模型推理能力,同時(shí)為大模型在多任務(wù)、多租戶、端側(cè)場(chǎng)景的模型部署提供了全新的低成本、高效率解決方案。下一步或許我們正在邁向一個(gè)“模型共享”而非“模型堆疊”的時(shí)代,讓每個(gè)參數(shù)都發(fā)揮最大效能,讓每臺(tái)設(shè)備都能加載無(wú)限可能。? 論文鏈接:?? https://arxiv.org/abs/2406.08903 ? GitHub 地址:??https://github.com/thunlp/Delta-CoMe
        Delta-CoMe 方法介紹
        微調(diào)是增強(qiáng)預(yù)訓(xùn)練模型的重要手段,不同任務(wù)往往需要不同的微調(diào)方式。例如 Luo et al.[1] 提出 RLEIF 通過 Evove-instruction 來增強(qiáng)模型數(shù)學(xué)推理能力;Wei et al.[2] 利用 Code snnipet 合成高質(zhì)量的指令數(shù)據(jù)來增加模型的代碼能力。然而,這些方法通常依賴高質(zhì)量數(shù)據(jù),并需要精心設(shè)計(jì)的策略才能實(shí)現(xiàn)顯著的效果。在一些場(chǎng)景中往往需要具有不同能力的 LLM 同時(shí)處理問題,例如多租戶場(chǎng)景、多任務(wù)場(chǎng)景以及端側(cè)場(chǎng)景等等。一種自然的解決方案是部署單個(gè)通用模型,以及多個(gè)具有專有能力的 Delta。以 Bitdelta[3] 為例,它通過將模型的 Delta 壓縮到 1bit,有效保留了模型在日常對(duì)話場(chǎng)景中的基本功能。盡管壓縮方法在存儲(chǔ)和推理效率上表現(xiàn)出色,其在更復(fù)雜的任務(wù)(如數(shù)學(xué)推理和代碼生成)上仍存在明顯的能力瓶頸。針對(duì)這一挑戰(zhàn),清華 NLP 實(shí)驗(yàn)室聯(lián)合北京大學(xué)和上海財(cái)經(jīng)大學(xué)提出 Delta-CoMe。這一方法結(jié)合低秩和低比特量化技術(shù),不僅顯著提升了模型在復(fù)雜任務(wù)上的表現(xiàn),還兼顧了壓縮效率和實(shí)際應(yīng)用需求,為模型的高效部署提供了一種新思路。與前人的方法相比,Delta-CoMe 方法的優(yōu)點(diǎn)在于:結(jié)合低秩與低比特量化,利用了 Delta 低秩的特點(diǎn),并發(fā)現(xiàn)低秩分解后的 Delta 是長(zhǎng)尾分布的;之后采用混合精度量化進(jìn)一步節(jié)省;性能幾乎無(wú)損,相比于 Bitdelta 等方法,在 math,code,Multi-modal 等復(fù)雜任務(wù)上,性能與原始模型表現(xiàn)基本接近;推理速度提升,實(shí)現(xiàn)了 Triton kernel 對(duì)比 Pytorch 實(shí)現(xiàn)方式,帶來近 3x 的推理速度提升;超過 Delta-tuning 支持多精度 Backbone,Delta-CoMe 顯著優(yōu)于 Delta-tuning 并可以用在多種精度的 Backbone 上。Delta-CoMe 首先采用 SVD 進(jìn)行低秩分解,Delta 具有低秩性,秩降低到原來的 1/8 性能基本保持不變。經(jīng)過低秩分解之后,我們發(fā)現(xiàn)奇異向量是長(zhǎng)尾分布的,較大奇異向量對(duì)最終的結(jié)果貢獻(xiàn)較大。一個(gè)自然的想法,我們可以根據(jù)奇異向量大小進(jìn)行混合精度量化,將較大的奇異值對(duì)應(yīng)的奇異向量用較高精度表示。
        實(shí)驗(yàn)結(jié)果
        多個(gè)開源模型和 Benchmark 的實(shí)驗(yàn)驗(yàn)證了該方法的有效性。使用 Llama-2-7B 作為主干模型,在數(shù)學(xué)、代碼、對(duì)話、多模態(tài)等多個(gè)任務(wù)中進(jìn)行實(shí)驗(yàn),Delta-CoMe 展現(xiàn)出平均幾乎無(wú)損的性能。此外,實(shí)驗(yàn)還在 Mistral、Llama-3 等其它主干模型上進(jìn)行驗(yàn)證。通過實(shí)現(xiàn) Triton kernel,相比于 Pytorch 的實(shí)現(xiàn)方式,推理速度提升了約 3 倍。實(shí)驗(yàn)結(jié)果表明,使用一塊 80G 的 A100 GPU 可以加載 50 個(gè) 7B 模型。Delta-CoMe 對(duì)比 Delta-tuning 在相同的存儲(chǔ)開銷下,性能顯著提升。
        總 結(jié)
        Delta-CoMe 通過結(jié)合低秩分解和低比特量化,不僅實(shí)現(xiàn)了大幅度的存儲(chǔ)壓縮,還在復(fù)雜任務(wù)如數(shù)學(xué)推理、代碼生成和多模態(tài)任務(wù)上維持了與原始模型相當(dāng)?shù)男阅鼙憩F(xiàn)。相比于傳統(tǒng)的微調(diào)方法,Delta-CoMe 展現(xiàn)出了更高的效率和靈活性,尤其在多租戶和多任務(wù)場(chǎng)景中具有顯著的應(yīng)用價(jià)值。此外,借助 Triton kernel 的優(yōu)化,推理速度得到了顯著提升,使得部署大規(guī)模模型成為可能。未來,這一方法的潛力不僅在于進(jìn)一步優(yōu)化模型存儲(chǔ)和推理速度,也有望在更廣泛的實(shí)際應(yīng)用中推動(dòng)大語(yǔ)言模型的普及和高效運(yùn)作。參考文獻(xiàn)[1]Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.[2] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b[3] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.InfoQ 老友!請(qǐng)留步!極客邦 1 號(hào)客服上線工作啦!后續(xù)我將通過微信視頻號(hào),以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢(shì)、創(chuàng)業(yè)經(jīng)驗(yàn)、商業(yè)踩坑教訓(xùn)等精彩內(nèi)容,和大家一同成長(zhǎng),開啟知識(shí)交流之旅歡迎掃碼關(guān)注我的微信視頻號(hào)~會(huì)議推薦12 月 13 日至 14 日(下周五至周六),AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)將在北京盛大開幕!本次大會(huì)匯聚 70+ 位 AI 及技術(shù)領(lǐng)域的頂尖專家,深入探討大模型與推理、AI Agent、多模態(tài)、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區(qū)活動(dòng),帶你深入探索大模型的最新實(shí)踐與未來趨勢(shì)。年度最后一次 AI 盛宴,讓我們一起見證 AI 未來。今日薦文裁掉 1.5 萬(wàn)人后,英特爾傳奇 CEO :18 歲入職,風(fēng)雨 40 載,如今成了“背鍋俠”?四年詐騙投資人千萬(wàn)美元,哈佛系 AI 公司創(chuàng)始人被捕!曾榮登福布斯榜,如今面臨 42 年監(jiān)禁北京一AI創(chuàng)業(yè)公司招0薪CTO;網(wǎng)易否認(rèn)深圳公司全部裁員;94歲巴菲特公布后事安排 |AI周報(bào)又又又給 AI 發(fā)明新語(yǔ)言了!卡內(nèi)基梅隆大學(xué)讓計(jì)算機(jī)理解人的想法后自動(dòng) coding,結(jié)果翻車了!AI 監(jiān)工軟件盯梢員工太瘋狂:5 秒截屏,打字慢、上網(wǎng)久都拿“紅牌”!網(wǎng)友狂噴,但巨頭爭(zhēng)相使用你也「在看」嗎???

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 成人伊人亚洲人综合网站222| 国产亚洲精品91| 国产成人精品亚洲精品| 丁香花免费完整高清观看| 特级做A爰片毛片免费看无码 | 激情综合亚洲色婷婷五月| 亚洲人成色777777在线观看| 麻豆国产人免费人成免费视频| 亚洲免费网站在线观看| 在线观看免费无码专区| 日韩一区二区三区免费播放| 国产成人精品日本亚洲18图| 久久精品国产亚洲av高清漫画| 亚洲中文字幕无码爆乳AV| 免费观看国产精品| 国产精品国产自线拍免费软件| 免费精品国偷自产在线在线| 免费毛片a线观看| 男人天堂免费视频| 51午夜精品免费视频| 成人婷婷网色偷偷亚洲男人的天堂| 亚洲一区二区三区免费在线观看| 精品亚洲成a人片在线观看| 久久精品国产亚洲AV网站| 亚洲综合图色40p| 红杏亚洲影院一区二区三区| 免费少妇a级毛片人成网| 国产乱子影视频上线免费观看| 成人免费毛片视频| 色www永久免费视频| 成年女人男人免费视频播放 | 亚洲精品乱码久久久久久蜜桃不卡| 免费一区二区三区四区五区| 日本一线a视频免费观看| 免费无码成人AV片在线在线播放| 四虎成人免费影院网址| 成年女人午夜毛片免费视频| 最近中文字幕mv免费高清电影| 德国女人一级毛片免费| 国产大片免费观看中文字幕| 国产免费观看网站|