400萬token上下文、推理再加速46%！最新開源方案升級(jí)MIT成果，推理成本再降低

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

400萬token上下文、推理再加速46%！最新開源方案升級(jí)MIT成果，推理成本再降低

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：400萬token上下文、推理再加速46%！最新開源方案升級(jí)MIT成果，推理成本再降低
關(guān)鍵字：模型,注意力,窗口,效果,機(jī)制
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4665字

內(nèi)容摘要：

明敏發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI22倍加速還不夠，再來提升46%，而且方法直接開源！
這就是開源社區(qū)改進(jìn)MIT爆火項(xiàng)目StreamingLLM的最新成果。
StreamingLLM可以在不犧牲生成效果、推理速度的前提下，實(shí)現(xiàn)多輪對(duì)話共400萬個(gè)token，22.2倍推理速度提升。
該項(xiàng)目在上線不到3個(gè)月時(shí)間內(nèi)，GitHub項(xiàng)目標(biāo)星達(dá)到5.7k star。
不過，StreamingLLM使用原生PyTorch實(shí)現(xiàn)，對(duì)于多輪對(duì)話推理場景落地應(yīng)用的低成本、低延遲、高吞吐等需求仍有優(yōu)化空間。
Colossal-AI團(tuán)隊(duì)開源了SwiftInfer，基于TensorRT的StreamingLLM，可以進(jìn)一步提升大模型推理性能46%，有效解決如上問題。
具體如何實(shí)現(xiàn)？一起來看。
開源地址：https://github.com/hpcaitech/SwiftInfer
StreamingLLM如何實(shí)現(xiàn)超長多輪對(duì)話？大語言模型能夠記住的上下文長度，直接影響了ChatGPT等大模型應(yīng)用與用戶互動(dòng)的質(zhì)量。
如何讓LLM在多輪對(duì)話場景下保持生成質(zhì)量，對(duì)推理系統(tǒng)提出了更高的要求，因?yàn)長LM在預(yù)

原文鏈接：400萬token上下文、推理再加速46%！最新開源方案升級(jí)MIT成果，推理成本再降低