模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達(dá)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達(dá)
關(guān)鍵字:模型,內(nèi)存,芯片,帶寬,參數(shù)
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
曾造出世界最大芯片公司 Cerebras,發(fā)布了全球最快的 AI 推理架構(gòu)——Cerebras Inference。
運(yùn)行 Llama3.1 8B 時(shí),它能以 1800 token/s 的速率吐出文字。
自推出了使用一整個(gè)晶圓制造的芯片以來,Cerebras 在過去幾年里的宣傳,都是以攻進(jìn)英偉達(dá)所把持的 AI 芯片市場(chǎng)為目標(biāo)。
以下文章轉(zhuǎn)載自「新智元」和「半導(dǎo)體行業(yè)觀察」,F(xiàn)ounder Park 略有調(diào)整。
點(diǎn)擊關(guān)注,每天更新深度 AI 行業(yè)洞察
01「全球最快」AI推理服務(wù)據(jù)首席執(zhí)行官 Andrew Feldman 介紹,新的 AI 推理架構(gòu)——Cerebras Inference。通過使用 SRAM,在以 16 位精度運(yùn)行 Llama 3.1 8B 時(shí)每秒能夠生成 1,800 個(gè)以上的 token,而性能最高的 H100 實(shí)例每秒最多可生成 242 個(gè) token。
不論是總結(jié)文檔,還是代碼生成等任務(wù),響應(yīng)幾乎一閃而過,快到讓你不敢相信自己的眼睛。
如下圖右所示,以往,微調(diào)版 Llama3.1 8B 推理速度為 90 token/s,清晰可見每行文字。
而現(xiàn)在,直接從 90 to
原文鏈接:模型推理速度狂飆 20 倍,又有一家公司想趕超英偉達(dá)
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡(jiǎn)介: