大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人馬打造,喊話(huà)奧特曼:你們也太慢了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人馬打造,喊話(huà)奧特曼:你們也太慢了
關(guān)鍵字:騰訊,模型,速度,芯片,加速卡
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5196字
內(nèi)容摘要:
白交 克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI太快了太快了。
一夜間,大模型生成已經(jīng)沒(méi)什么延遲了……來(lái)感受下這速度。
眼花繚亂了吧,生成速度已經(jīng)接近每秒500 tokens。
還有更直觀(guān)的列表對(duì)比,速度最高能比以往這些云平臺(tái)廠(chǎng)商快個(gè)18倍吧。
(這里面還有個(gè)熟悉的身影:Lepton)
網(wǎng)友表示:這速度簡(jiǎn)直就是飛機(jī)vs走路。
值得一提的是,這并非哪家大公司進(jìn)展——
初創(chuàng)公司Groq,谷歌TPU團(tuán)隊(duì)原班人馬,基于自研芯片推出推理加速方案。(注意不是馬斯克的Grok)
據(jù)他們介紹,其推理速度相較于英偉達(dá)GPU提高了10倍,成本卻降低到十分之一。
換言之,任何一個(gè)大模型都可以部署實(shí)現(xiàn)。
目前已經(jīng)能支持Mixtral 8x7B SMoE、Llama 2的7B和70B這三種模型,并且可直接體驗(yàn)Demo。
他們還在官網(wǎng)上喊話(huà)奧特曼:
你們推出的東西太慢了……
每秒接近500tokens既然如此,那就來(lái)體驗(yàn)一下這個(gè)號(hào)稱(chēng)「史上最快推理」的Groq。
先聲明:不比較生成質(zhì)量。就像它自己說(shuō)的那樣,內(nèi)容概不負(fù)責(zé)。
目前,演示界面上有兩種模型可以選擇。
就選擇Mixtral 8x7B-32k和GPT
原文鏈接:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人馬打造,喊話(huà)奧特曼:你們也太慢了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破