AIGC動態歡迎閱讀
原標題:GPU推理時代終結?世界最大芯片加持推理狂飆20倍,英偉達H100也趴!
關鍵字:模型,內存,芯片,帶寬,速度
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:桃子 好困
【新智元導讀】LLM若以每秒1000+token高速推理,當前最先進的GPU根本無法實現!Cerebras Inference一出世,推理速度趕超英偉達GPU,背靠自研的世界最大芯片加持。而且,還將推理價格打了下來。LLM若想高速推理,現如今,連GPU都無法滿足了?
曾造出世界最大芯片公司Cerebras,剛剛發布了全球最快的AI推理架構——Cerebras Inference。
運行Llama3.1 8B時,它能以1800 token/s的速率吐出文字。
不論是總結文檔,還是代碼生成等任務,響應幾乎一閃而過,快到讓你不敢相信自己的眼睛。
如下圖右所示,以往,微調版Llama3.1 8B推理速度為90 token/s,清晰可見每行文字。
而現在,直接從90 token/s躍升到1800 token/s,相當于從撥號上網邁入了帶寬時代。
左邊Cerebras Inference下模型的推理速度,只能用「瞬間」、「瘋狂」兩字形容。
這是什么概念?
比起英偉達GPU,Cerebras Inference的推理速度快20倍,還要比專用Groq芯片還要快2.4倍。
原文鏈接:GPU推理時代終結?世界最大芯片加持推理狂飆20倍,英偉達H100也趴!
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...