不到1000行代碼,PyTorch團(tuán)隊(duì)讓Llama 7B提速10倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:不到1000行代碼,PyTorch團(tuán)隊(duì)讓Llama 7B提速10倍
關(guān)鍵字:模型,權(quán)重,緩存,張量,本文
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6019字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:陳萍PyTorch 團(tuán)隊(duì)親自教你如何加速大模型推理。在過(guò)去的一年里,生成式 AI 發(fā)展迅猛,在這當(dāng)中,文本生成一直是一個(gè)特別受歡迎的領(lǐng)域,很多開(kāi)源項(xiàng)目如 llama.cpp、vLLM 、 MLC-LLM 等,為了取得更好的效果,都在進(jìn)行不停的優(yōu)化。作為機(jī)器學(xué)習(xí)社區(qū)中最受歡迎框架之一的 PyTorch,自然也是抓住了這一新的機(jī)遇,不斷優(yōu)化。為此讓大家更好的了解這些創(chuàng)新,PyTorch 團(tuán)隊(duì)專(zhuān)門(mén)設(shè)置了系列博客,重點(diǎn)介紹如何使用純?cè)?PyTorch 加速生成式 AI 模型。代碼地址:https://github.com/pytorch-labs/gpt-fast在第一篇博客中,PyTorch 團(tuán)隊(duì)展示了僅使用。在本博客中,他們又為我們帶來(lái)了新的內(nèi)容,即如何加快 LLM 推理。我們先來(lái)看看結(jié)果,該團(tuán)隊(duì)重寫(xiě) LLM,推理速度比基線足足快了 10 倍,并且沒(méi)有損失準(zhǔn)確率,只用了不到…
原文鏈接:點(diǎn)此閱讀原文:不到1000行代碼,PyTorch團(tuán)隊(duì)讓Llama 7B提速10倍
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)