PyTorch官方認(rèn)可!斯坦福博士新作:長(zhǎng)上下文LLM推理速度提8倍

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:PyTorch官方認(rèn)可!斯坦福博士新作:長(zhǎng)上下文LLM推理速度提8倍
關(guān)鍵字:長(zhǎng)度,注意力,模型,長(zhǎng)上,作者
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5720字
內(nèi)容摘要:豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI這兩天,F(xiàn)lashAttention團(tuán)隊(duì)推出了新作:一種給Transformer架構(gòu)大模型推理加速的新方法,最高可提速8倍。該方法尤其造福于長(zhǎng)上下文LLM,在64k長(zhǎng)度的CodeLlama-34B上通過(guò)了驗(yàn)證。甚至得到了PyTorch官方認(rèn)可:如果你之前有所關(guān)注,就會(huì)記得用給大模型加速效果真的很驚艷。不過(guò)它僅限于訓(xùn)練階段。因此,這一新成果一出,就有…
原文鏈接:點(diǎn)此閱讀原文:PyTorch官方認(rèn)可!斯坦福博士新作:長(zhǎng)上下文LLM推理速度提8倍
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)