模型推理速度狂飆 20 倍，又有一家公司想趕超英偉達(dá)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 Founder Park

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：模型推理速度狂飆 20 倍，又有一家公司想趕超英偉達(dá)
關(guān)鍵字：模型,內(nèi)存,芯片,帶寬,參數(shù)
文章來源：Founder Park
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

曾造出世界最大芯片公司 Cerebras，發(fā)布了全球最快的 AI 推理架構(gòu)——Cerebras Inference。
運(yùn)行 Llama3.1 8B 時(shí)，它能以 1800 token/s 的速率吐出文字。
自推出了使用一整個(gè)晶圓制造的芯片以來，Cerebras 在過去幾年里的宣傳，都是以攻進(jìn)英偉達(dá)所把持的 AI 芯片市場(chǎng)為目標(biāo)。
以下文章轉(zhuǎn)載自「新智元」和「半導(dǎo)體行業(yè)觀察」，F(xiàn)ounder Park 略有調(diào)整。
點(diǎn)擊關(guān)注，每天更新深度 AI 行業(yè)洞察
01「全球最快」AI推理服務(wù)據(jù)首席執(zhí)行官 Andrew Feldman 介紹，新的 AI 推理架構(gòu)——Cerebras Inference。通過使用 SRAM，在以 16 位精度運(yùn)行 Llama 3.1 8B 時(shí)每秒能夠生成 1,800 個(gè)以上的 token，而性能最高的 H100 實(shí)例每秒最多可生成 242 個(gè) token。
不論是總結(jié)文檔，還是代碼生成等任務(wù)，響應(yīng)幾乎一閃而過，快到讓你不敢相信自己的眼睛。
如下圖右所示，以往，微調(diào)版 Llama3.1 8B 推理速度為 90 token/s，清晰可見每行文字。
而現(xiàn)在，直接從 90 to

原文鏈接：模型推理速度狂飆 20 倍，又有一家公司想趕超英偉達(dá)