大型語言模型的模型壓縮與高效推理:綜述

AIGC動態(tài)歡迎閱讀
原標(biāo)題:大型語言模型的模型壓縮與高效推理:綜述
關(guān)鍵字:模型,方法,語言,報告,算法
文章來源:人工智能學(xué)家
內(nèi)容字數(shù):9747字
內(nèi)容摘要:
來源:專知
基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產(chǎn)生的顯著內(nèi)存和計算成本,使得在資源受限的設(shè)備上部署大型模型變得具有挑戰(zhàn)性。在本文中,我們從算法角度調(diào)查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構(gòu)設(shè)計、絡(luò)。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數(shù)壓縮算法在壓縮后需要進行微調(diào)甚至重新訓(xùn)練模型。大型模型最顯著的方面是與模型微調(diào)或訓(xùn)練相關(guān)的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調(diào)整的算法。(2)大型模型強調(diào)的是通用性和泛化能力,而不是在單一任務(wù)上的性能。因此,許多算法,如知識蒸餾,關(guān)注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區(qū)分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。
大型語言模型(LLMs)已成為人工智能領(lǐng)域中一個重要且受歡
原文鏈接:大型語言模型的模型壓縮與高效推理:綜述
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)

粵公網(wǎng)安備 44011502001135號