大型語言模型的模型壓縮與高效推理：綜述

AIGC動態(tài)2年前 (2024)發(fā)布人工智能學(xué)家

大型語言模型的模型壓縮與高效推理：綜述

AIGC動態(tài)歡迎閱讀

原標(biāo)題：大型語言模型的模型壓縮與高效推理：綜述
關(guān)鍵字：模型,方法,語言,報告,算法
文章來源：人工智能學(xué)家
內(nèi)容字數(shù)：9747字

內(nèi)容摘要：

來源：專知
基于Transformer的大型語言模型取得了巨大成功。然而，在推理過程中產(chǎn)生的顯著內(nèi)存和計算成本，使得在資源受限的設(shè)備上部署大型模型變得具有挑戰(zhàn)性。在本文中，我們從算法角度調(diào)查了大型語言模型的壓縮和高效推理方法。就分類而言，類似于較小的模型，大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構(gòu)設(shè)計、絡(luò)。然而，與較小模型相比，大型語言模型有兩個突出的特點：（1）大多數(shù)壓縮算法在壓縮后需要進行微調(diào)甚至重新訓(xùn)練模型。大型模型最顯著的方面是與模型微調(diào)或訓(xùn)練相關(guān)的非常高成本。因此，許多針對大型模型的算法，如量化和剪枝，開始探索無需調(diào)整的算法。（2）大型模型強調(diào)的是通用性和泛化能力，而不是在單一任務(wù)上的性能。因此，許多算法，如知識蒸餾，關(guān)注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯，我們進一步將大型語言模型區(qū)分為中等模型和“真正”的大型模型。此外，我們還提供了一些成熟框架的介紹，這些框架可以支持大型模型的高效推理，支持基本的壓縮或加速算法，極大地便利了用戶的模型部署。
大型語言模型（LLMs）已成為人工智能領(lǐng)域中一個重要且受歡

原文鏈接：大型語言模型的模型壓縮與高效推理：綜述