2080 Ti就能跑70B大模型，上交大新框架讓LLM推理增速11倍

AIGC動態1年前 (2023)發布量子位

AIGC動態歡迎閱讀

原標題：2080 Ti就能跑70B大模型，上交大新框架讓LLM推理增速11倍
關鍵字：神經元,模型,速度,局部性,路由
文章來源：量子位
內容字數：7617字

內容摘要：

上交大IPADS實驗室投稿量子位 | 公眾號 QbitAI原本需要一張16萬元的80G A100干的活，現在只需要一張不到2萬元的24G 4090就夠了！
上海交大IPADS實驗室推出的開源推理框架PowerInfer，讓大模型推理速度加快了11倍。
而且不用量化，就用FP16精度，也能讓40B模型在個人電腦上運行；如果加入量化，2080 Ti也能流暢運行70B模型。
結合大模型的獨特特征，通過CPU與GPU間的混合計算，PowerInfer能夠在顯存有限的個人電腦上實現快速推理。
相比于llama.cpp，PowerInfer實現了高達11倍的加速，讓40B模型也能在個人電腦上一秒能輸出十個token。
我們最熟悉的ChatGPT，一方面有時會因為訪問量過大而宕機，另一方面也存在數據安全問題。
開源模型能較好地解決這兩個問題，但如果沒有高性能的顯卡，運行速度往往十分感人：
而PowerInfer的出現，剛好解決了這個痛點。
PowerInfer一經發布就引起熱烈反響，不到24小時就獲得了500+星標，其中還有一顆來自llama.cpp的作者Gerganov。
目前，PowerInf

原文鏈接：2080 Ti就能跑70B大模型，上交大新框架讓LLM推理增速11倍