AIGC動態歡迎閱讀
內容摘要:
,智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術負責人周暢,「清華系Sora」生數科技CEO唐家渝,云天勵飛“云天天書”大模型技術負責人余曉填,Open-Sora開發團隊潞晨科技創始人尤洋,鴻博股份副總裁、英博數科CEO周韡韡,優必選研究院執行院長焦繼超,科大訊飛人形機器人首席科學家季超,騰訊研究科學家張馳等20+位嘉賓已確認帶來演講和報告,歡迎報名。導讀本文轉載自公眾號:極市平臺,原文來自知乎,作者為Kevin吳嘉文,本文討論部署 LLaMa 系列模型常用的幾種方案,并作速度測試。包括 Huggingface 自帶的 LLM.int8(),AutoGPTQ,GPTQ-for-LLaMa,exllama,llama.cpp。
原文鏈接:https://zhuanlan.zhihu.com/p/641641929總結來看,對 7B 級別的 LLaMa 系列模型,經過 GPTQ 量化后,在 4090 上可以達到 140+ tokens/s 的推理速度。在 3070 上可以達到 40 tokens/s 的推理速度。
01LM.int8(
原文鏈接:LLaMa 量化部署常用方案總結
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...