AIGC動態歡迎閱讀
原標題:2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
關鍵字:神經元,模型,速度,局部性,路由
文章來源:量子位
內容字數:7617字
內容摘要:
上交大IPADS實驗室 投稿量子位 | 公眾號 QbitAI原本需要一張16萬元的80G A100干的活,現在只需要一張不到2萬元的24G 4090就夠了!
上海交大IPADS實驗室推出的開源推理框架PowerInfer,讓大模型推理速度加快了11倍。
而且不用量化,就用FP16精度,也能讓40B模型在個人電腦上運行;如果加入量化,2080 Ti也能流暢運行70B模型。
結合大模型的獨特特征,通過CPU與GPU間的混合計算,PowerInfer能夠在顯存有限的個人電腦上實現快速推理。
相比于llama.cpp,PowerInfer實現了高達11倍的加速,讓40B模型也能在個人電腦上一秒能輸出十個token。
我們最熟悉的ChatGPT,一方面有時會因為訪問量過大而宕機,另一方面也存在數據安全問題。
開源模型能較好地解決這兩個問題,但如果沒有高性能的顯卡,運行速度往往十分感人:
而PowerInfer的出現,剛好解決了這個痛點。
PowerInfer一經發布就引起熱烈反響,不到24小時就獲得了500+星標,其中還有一顆來自llama.cpp的作者Gerganov。
目前,PowerInf
原文鏈接:2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...