模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達
AIGC動態(tài)歡迎閱讀
原標題:模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達
關鍵字:模型,內(nèi)存,芯片,帶寬,參數(shù)
文章來源:Founder Park
內(nèi)容字數(shù):0字
內(nèi)容摘要:
曾造出世界最大芯片公司 Cerebras,發(fā)布了全球最快的 AI 推理架構——Cerebras Inference。
運行 Llama3.1 8B 時,它能以 1800 token/s 的速率吐出文字。
自推出了使用一整個晶圓制造的芯片以來,Cerebras 在過去幾年里的宣傳,都是以攻進英偉達所把持的 AI 芯片市場為目標。
以下文章轉載自「新智元」和「半導體行業(yè)觀察」,F(xiàn)ounder Park 略有調整。
點擊關注,每天更新深度 AI 行業(yè)洞察
01「全球最快」AI推理服務據(jù)首席執(zhí)行官 Andrew Feldman 介紹,新的 AI 推理架構——Cerebras Inference。通過使用 SRAM,在以 16 位精度運行 Llama 3.1 8B 時每秒能夠生成 1,800 個以上的 token,而性能最高的 H100 實例每秒最多可生成 242 個 token。
不論是總結文檔,還是代碼生成等任務,響應幾乎一閃而過,快到讓你不敢相信自己的眼睛。
如下圖右所示,以往,微調版 Llama3.1 8B 推理速度為 90 token/s,清晰可見每行文字。
而現(xiàn)在,直接從 90 to
原文鏈接:模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...