大模型壓縮量化方案怎么選？無問芯穹Qllm-Eval量化方案全面評估：多模型、多參數、多維度

AIGC動態歡迎閱讀

原標題：大模型壓縮量化方案怎么選？無問芯穹Qllm-Eval量化方案全面評估：多模型、多參數、多維度
關鍵字：模型,權重,能力,性能,張量
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心發布
作者：李師堯（無問芯穹TechView）基于 Transformer架構的大型語言模型在各種基準測試中展現出優異性能，但數百億、千億乃至萬億量級的參數規模會帶來高昂的服務成本。例如GPT-3有1750億參數，采用FP16存儲，模型大小約為350GB，而即使是英偉達最新的B200 GPU 內存也只有192GB ，更不用說其他GPU和邊緣設備。
大模型壓縮，即將大模型“瘦身”后塞進資源受限的場景，以減少模型存儲、訪存和計算開銷。在盡量不損失模型性能的前提下，提高大模型推理吞吐速度，使大模型在物聯網邊緣設備、嵌入式機器人、離線移動應用等邊、端場景中保持優秀的推理性能和功耗表現。最近，來自清華大學電子工程系、無問芯穹和上海交通大學的研究團隊展開了一次量化方案的“大摸底”，在《Evaluating Quantized Large Language Models 》（Qllm-Eval）這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務上的性能，本篇工作已被ICML’24接收。Qllm-Eval列舉出很多大模型落地環節應當關注的模型能力，對產業中的模型量化工作實

原文鏈接：大模型壓縮量化方案怎么選？無問芯穹Qllm-Eval量化方案全面評估：多模型、多參數、多維度