AIGC動態歡迎閱讀
原標題:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人馬打造,喊話奧特曼:你們也太慢了
關鍵字:騰訊,模型,速度,芯片,加速卡
文章來源:量子位
內容字數:5196字
內容摘要:
白交 克雷西 發自 凹非寺量子位 | 公眾號 QbitAI太快了太快了。
一夜間,大模型生成已經沒什么延遲了……來感受下這速度。
眼花繚亂了吧,生成速度已經接近每秒500 tokens。
還有更直觀的列表對比,速度最高能比以往這些云平臺廠商快個18倍吧。
(這里面還有個熟悉的身影:Lepton)
網友表示:這速度簡直就是飛機vs走路。
值得一提的是,這并非哪家大公司進展——
初創公司Groq,谷歌TPU團隊原班人馬,基于自研芯片推出推理加速方案。(注意不是馬斯克的Grok)
據他們介紹,其推理速度相較于英偉達GPU提高了10倍,成本卻降低到十分之一。
換言之,任何一個大模型都可以部署實現。
目前已經能支持Mixtral 8x7B SMoE、Llama 2的7B和70B這三種模型,并且可直接體驗Demo。
他們還在官網上喊話奧特曼:
你們推出的東西太慢了……
每秒接近500tokens既然如此,那就來體驗一下這個號稱「史上最快推理」的Groq。
先聲明:不比較生成質量。就像它自己說的那樣,內容概不負責。
目前,演示界面上有兩種模型可以選擇。
就選擇Mixtral 8x7B-32k和GPT
原文鏈接:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人馬打造,喊話奧特曼:你們也太慢了
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...