2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

AIGC動態(tài)歡迎閱讀
原標題:2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
關(guān)鍵字:神經(jīng)元,模型,速度,局部性,路由
文章來源:量子位
內(nèi)容字數(shù):7617字
內(nèi)容摘要:
上交大IPADS實驗室 投稿量子位 | 公眾號 QbitAI原本需要一張16萬元的80G A100干的活,現(xiàn)在只需要一張不到2萬元的24G 4090就夠了!
上海交大IPADS實驗室推出的開源推理框架PowerInfer,讓大模型推理速度加快了11倍。
而且不用量化,就用FP16精度,也能讓40B模型在個人電腦上運行;如果加入量化,2080 Ti也能流暢運行70B模型。
結(jié)合大模型的獨特特征,通過CPU與GPU間的混合計算,PowerInfer能夠在顯存有限的個人電腦上實現(xiàn)快速推理。
相比于llama.cpp,PowerInfer實現(xiàn)了高達11倍的加速,讓40B模型也能在個人電腦上一秒能輸出十個token。
我們最熟悉的ChatGPT,一方面有時會因為訪問量過大而宕機,另一方面也存在數(shù)據(jù)安全問題。
開源模型能較好地解決這兩個問題,但如果沒有高性能的顯卡,運行速度往往十分感人:
而PowerInfer的出現(xiàn),剛好解決了這個痛點。
PowerInfer一經(jīng)發(fā)布就引起熱烈反響,不到24小時就獲得了500+星標,其中還有一顆來自llama.cpp的作者Gerganov。
目前,PowerInf
原文鏈接:2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號