模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達
AIGC動態歡迎閱讀
原標題:模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達
關鍵字:模型,內存,芯片,帶寬,參數
文章來源:Founder Park
內容字數:0字
內容摘要:
曾造出世界最大芯片公司 Cerebras,發布了全球最快的 AI 推理架構——Cerebras Inference。
運行 Llama3.1 8B 時,它能以 1800 token/s 的速率吐出文字。
自推出了使用一整個晶圓制造的芯片以來,Cerebras 在過去幾年里的宣傳,都是以攻進英偉達所把持的 AI 芯片市場為目標。
以下文章轉載自「新智元」和「半導體行業觀察」,Founder Park 略有調整。
點擊關注,每天更新深度 AI 行業洞察
01「全球最快」AI推理服務據首席執行官 Andrew Feldman 介紹,新的 AI 推理架構——Cerebras Inference。通過使用 SRAM,在以 16 位精度運行 Llama 3.1 8B 時每秒能夠生成 1,800 個以上的 token,而性能最高的 H100 實例每秒最多可生成 242 個 token。
不論是總結文檔,還是代碼生成等任務,響應幾乎一閃而過,快到讓你不敢相信自己的眼睛。
如下圖右所示,以往,微調版 Llama3.1 8B 推理速度為 90 token/s,清晰可見每行文字。
而現在,直接從 90 to
原文鏈接:模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...