AIGC動態歡迎閱讀
原標題:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
關鍵字:神經元,模型,離線,內存,峰值
文章來源:機器之心
內容字數:6076字
內容摘要:
機器之心報道
機器之心編輯部PowerInfer 使得在消費級硬件上運行 AI 更加高效。上海交大團隊最新推出了超強 CPU/GPU LLM 高速推理引擎 PowerInfer。PowerInfer 和 llama.cpp 都在相同的硬件上運行,并充分利用了 RTX 4090 上的 VRAM。
這個推理引擎速度有多快?在單個 NVIDIA RTX 4090 GPU 上運行 LLM ,PowerInfer 的平均 token 生成速率為 13.20 tokens/s,峰值為 29.08 tokens/s,僅比頂級服務器 A100 GPU 低 18%,可適用于各種 LLM。
不僅如此,PowerInfer 與最先進的本地LLM推理框架 llama.cpp 相比,在單個 RTX 4090 (24G) 上運行 Falcon (ReLU)-40B-FP16,實現了 11 倍多的加速,還能保持模型的準確性。
具體來說,PowerInfer 是一個用于本地部署 LLM 的高速推理引擎。與那些采用多專家系統(MoE)不同的是,PowerInfer 通過利用 LLM 推理中的高度局部性,巧妙的設計了一款
原文鏈接:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...