<strike id="4w22q"></strike>

清華&面壁開源高效壓縮技術：一塊 80 G A100 輕松加載 50 個 7B 模型

AIGC動態8個月前發布 AI前線

312 0 0

作者 | OpenBMB 開源社區近日，清華大學與面壁智能團隊提出了 Delta Compression（Delta 壓縮）技術，它通過存儲主干模型與任務專用模型之間的參數差值，顯著降低了模型對顯卡的存儲需求。在此基礎上，團隊進一步結合低秩分解與低比特量化，提出混合精度壓縮方法 Delta-CoMe。該方法在幾乎不損失任務性能（如數學推理、代碼生成和多模態任務）的前提下，大幅提升了模型推理效率，從而實現一塊 80G A100 GPU 無損性能加載多達 50 個 7B 模型。相比于傳統的微調方法，Delta-CoMe 展現出了更高的效率和靈活性，該技術有效改善了不同應用場景對模型進行微調時的計算與存儲開銷難題，為終端設備帶來了輕量化的大模型推理能力，同時為大模型在多任務、多租戶、端側場景的模型部署提供了全新的低成本、高效率解決方案。下一步或許我們正在邁向一個“模型共享”而非“模型堆疊”的時代，讓每個參數都發揮最大效能，讓每臺設備都能加載無限可能。? 論文鏈接：?? https://arxiv.org/abs/2406.08903 ? GitHub 地址：??https://github.com/thunlp/Delta-CoMe
Delta-CoMe 方法介紹
微調是增強預訓練模型的重要手段，不同任務往往需要不同的微調方式。例如 Luo et al.[1] 提出 RLEIF 通過 Evove-instruction 來增強模型數學推理能力；Wei et al.[2] 利用 Code snnipet 合成高質量的指令數據來增加模型的代碼能力。然而，這些方法通常依賴高質量數據，并需要精心設計的策略才能實現顯著的效果。在一些場景中往往需要具有不同能力的 LLM 同時處理問題，例如多租戶場景、多任務場景以及端側場景等等。一種自然的解決方案是部署單個通用模型，以及多個具有專有能力的 Delta。以 Bitdelta[3] 為例，它通過將模型的 Delta 壓縮到 1bit，有效保留了模型在日常對話場景中的基本功能。盡管壓縮方法在存儲和推理效率上表現出色，其在更復雜的任務（如數學推理和代碼生成）上仍存在明顯的能力瓶頸。針對這一挑戰，清華 NLP 實驗室聯合北京大學和上海財經大學提出 Delta-CoMe。這一方法結合低秩和低比特量化技術，不僅顯著提升了模型在復雜任務上的表現，還兼顧了壓縮效率和實際應用需求，為模型的高效部署提供了一種新思路。與前人的方法相比，Delta-CoMe 方法的優點在于：結合低秩與低比特量化，利用了 Delta 低秩的特點，并發現低秩分解后的 Delta 是長尾分布的；之后采用混合精度量化進一步節省；性能幾乎無損，相比于 Bitdelta 等方法，在 math，code，Multi-modal 等復雜任務上，性能與原始模型表現基本接近；推理速度提升，實現了 Triton kernel 對比 Pytorch 實現方式，帶來近 3x 的推理速度提升；超過 Delta-tuning 支持多精度 Backbone，Delta-CoMe 顯著優于 Delta-tuning 并可以用在多種精度的 Backbone 上。Delta-CoMe 首先采用 SVD 進行低秩分解，Delta 具有低秩性，秩降低到原來的 1/8 性能基本保持不變。經過低秩分解之后，我們發現奇異向量是長尾分布的，較大奇異向量對最終的結果貢獻較大。一個自然的想法，我們可以根據奇異向量大小進行混合精度量化，將較大的奇異值對應的奇異向量用較高精度表示。
實驗結果
多個開源模型和 Benchmark 的實驗驗證了該方法的有效性。使用 Llama-2-7B 作為主干模型，在數學、代碼、對話、多模態等多個任務中進行實驗，Delta-CoMe 展現出平均幾乎無損的性能。此外，實驗還在 Mistral、Llama-3 等其它主干模型上進行驗證。通過實現 Triton kernel，相比于 Pytorch 的實現方式，推理速度提升了約 3 倍。實驗結果表明，使用一塊 80G 的 A100 GPU 可以加載 50 個 7B 模型。Delta-CoMe 對比 Delta-tuning 在相同的存儲開銷下，性能顯著提升。
總結
Delta-CoMe 通過結合低秩分解和低比特量化，不僅實現了大幅度的存儲壓縮，還在復雜任務如數學推理、代碼生成和多模態任務上維持了與原始模型相當的性能表現。相比于傳統的微調方法，Delta-CoMe 展現出了更高的效率和靈活性，尤其在多租戶和多任務場景中具有顯著的應用價值。此外，借助 Triton kernel 的優化，推理速度得到了顯著提升，使得部署大規模模型成為可能。未來，這一方法的潛力不僅在于進一步優化模型存儲和推理速度，也有望在更廣泛的實際應用中推動大語言模型的普及和高效運作。參考文獻[1]Yu， L.， Jiang， W.， Shi， H.， Jincheng， Y.， Liu， Z.， Zhang， Y.， Kwok， J.， Li， Z.， Weller， A.， and Liu， W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations， 2023.[2] Luo， Z.， Xu， C.， Zhao， P.， Sun， Q.， Geng， X.， Hu， W.， Tao， C.， Ma， J.， Lin， Q.， and Jiang， D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568， 2023b[3] Liu， J.， Xiao， G.， Li， K.， Lee， J. D.， Han， S.， Dao， T.， and Cai， T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193， 2024b.InfoQ 老友！請留步！極客邦 1 號客服上線工作啦！后續我將通過微信視頻號，以視頻的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容，和大家一同成長，開啟知識交流之旅歡迎掃碼關注我的微信視頻號～會議推薦12 月 13 日至 14 日（下周五至周六），AICon 全球人工智能開發與應用大會將在北京盛大開幕！本次大會匯聚 70+ 位 AI 及技術領域的頂尖專家，深入探討大模型與推理、AI Agent、多模態、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區活動，帶你深入探索大模型的最新實踐與未來趨勢。年度最后一次 AI 盛宴，讓我們一起見證 AI 未來。今日薦文裁掉 1.5 萬人后，英特爾傳奇 CEO ：18 歲入職，風雨 40 載，如今成了“背鍋俠”？四年詐騙投資人千萬美元，哈佛系 AI 公司創始人被捕！曾榮登福布斯榜，如今面臨 42 年監禁北京一AI創業公司招0薪CTO；網易否認深圳公司全部裁員；94歲巴菲特公布后事安排 |AI周報又又又給 AI 發明新語言了！卡內基梅隆大學讓計算機理解人的想法后自動 coding，結果翻車了！AI 監工軟件盯梢員工太瘋狂：5 秒截屏，打字慢、上網久都拿“紅牌”！網友狂噴，但巨頭爭相使用你也「在看」嗎？??

閱讀原文