4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
關(guān)鍵字:神經(jīng)元,模型,離線,內(nèi)存,峰值
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6076字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部PowerInfer 使得在消費(fèi)級(jí)硬件上運(yùn)行 AI 更加高效。上海交大團(tuán)隊(duì)最新推出了超強(qiáng) CPU/GPU LLM 高速推理引擎 PowerInfer。PowerInfer 和 llama.cpp 都在相同的硬件上運(yùn)行,并充分利用了 RTX 4090 上的 VRAM。
這個(gè)推理引擎速度有多快?在單個(gè) NVIDIA RTX 4090 GPU 上運(yùn)行 LLM ,PowerInfer 的平均 token 生成速率為 13.20 tokens/s,峰值為 29.08 tokens/s,僅比頂級(jí)服務(wù)器 A100 GPU 低 18%,可適用于各種 LLM。
不僅如此,PowerInfer 與最先進(jìn)的本地LLM推理框架 llama.cpp 相比,在單個(gè) RTX 4090 (24G) 上運(yùn)行 Falcon (ReLU)-40B-FP16,實(shí)現(xiàn)了 11 倍多的加速,還能保持模型的準(zhǔn)確性。
具體來(lái)說(shuō),PowerInfer 是一個(gè)用于本地部署 LLM 的高速推理引擎。與那些采用多專家系統(tǒng)(MoE)不同的是,PowerInfer 通過利用 LLM 推理中的高度局部性,巧妙的設(shè)計(jì)了一款
原文鏈接:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)