Delta-CoMe：新型高效增量壓縮算法助力數據存儲優化與傳輸提速

Delta-CoMe是一種創新的增量壓縮算法，由清華大學NLP實驗室與OpenBMB開源社區、北京大學和上海財經大合研發。該算法使得在一臺80G的A100 GPU上可以輕松加載多達50個7B模型，顯著節省約8倍的顯存，同時在壓縮后的模型性能幾乎與未壓縮的微調模型相當。Delta-CoMe結合了低秩分解與低比特量化技術，利用模型參數增量（Delta）的低秩特性，實現了高效的混合精度壓縮。

Delta-CoMe是什么

Delta-CoMe是一種前沿的增量壓縮算法，旨在優化大型語言模型（LLMs）的存儲和推理效率。通過創新的壓縮技術，Delta-CoMe在保證模型性能的同時，顯著降低了對硬件資源的需求，特別適用于處理復雜任務如數學計算、代碼生成和多模態應用。

Delta-CoMe的主要功能

高效模型壓縮：通過混合精度壓縮技術，大幅降低大型語言模型的存儲和內存需求，使得在有限的硬件環境中可以部署更多模型。
精準性能保持：在壓縮過程中，確保模型在復雜任務中的性能幾乎不受影響，特別是在解決數學問題、生成代碼和多模態任務時表現優異。
靈活的多任務處理：支持同時部署多個功能不同的模型，適合多租戶環境和多任務處理，提高了模型應用的靈活性和效率。
顯著提升推理速度：采用Triton kernel算子，推理速度較傳統PyTorch實現提升近3倍，進一步優化了模型的運行效率。

Delta-CoMe的技術原理

低秩分解技術：通過奇異值分解（SVD）對模型參數增量（Delta）進行低秩分解，發現大部分變化集中在少數主要成分上。
混合精度量化：依據低秩分解的結果，為不同的奇異向量分配適當的位寬。較大奇異值對應的奇異向量使用更高精度表示，而較小的奇異值則使用較低精度，從而減少存儲需求。
長尾分布的有效利用：Delta-CoMe發現Delta參數的奇異值呈現長尾特征，主要集中在較小的數值上。因此，對小奇異值的奇異向量進行更激進的壓縮，對大奇異值的奇異向量則保留更高的精度。
兼容性與泛化能力：該方法不僅適用于特定模型或任務，還具有良好的泛化能力，可以與多種主干模型（如Llama-2、Llama-3和Mistral）兼容，并在多種任務上保持優異性能。
硬件優化支持：為進一步提升推理速度，Delta-CoMe實現了針對混合精度量化的Triton kernel算子，確保在硬件上的有效部署。