AIGC動態歡迎閱讀
原標題:大模型壓縮量化方案怎么選?無問芯穹Qllm-Eval量化方案全面評估:多模型、多參數、多維度
關鍵字:模型,權重,能力,性能,張量
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心發布
作者:李師堯(無問芯穹TechView)基于 Transformer架構的大型語言模型在各種基準測試中展現出優異性能,但數百億、千億乃至萬億量級的參數規模會帶來高昂的服務成本。例如GPT-3有1750億參數,采用FP16存儲,模型大小約為350GB,而即使是英偉達最新的B200 GPU 內存也只有192GB ,更不用說其他GPU和邊緣設備。
大模型壓縮,即將大模型“瘦身”后塞進資源受限的場景,以減少模型存儲、訪存和計算開銷。在盡量不損失模型性能的前提下,提高大模型推理吞吐速度,使大模型在物聯網邊緣設備、嵌入式機器人、離線移動應用等邊、端場景中保持優秀的推理性能和功耗表現。最近,來自清華大學電子工程系、無問芯穹和上海交通大學的研究團隊展開了一次量化方案的“大摸底”,在《Evaluating Quantized Large Language Models 》(Qllm-Eval)這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務上的性能,本篇工作已被ICML’24接收。Qllm-Eval列舉出很多大模型落地環節應當關注的模型能力,對產業中的模型量化工作實
原文鏈接:大模型壓縮量化方案怎么選?無問芯穹Qllm-Eval量化方案全面評估:多模型、多參數、多維度
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...