400萬token上下文、推理再加速46%!最新開源方案升級(jí)MIT成果,推理成本再降低
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:400萬token上下文、推理再加速46%!最新開源方案升級(jí)MIT成果,推理成本再降低
關(guān)鍵字:模型,注意力,窗口,效果,機(jī)制
文章來源:量子位
內(nèi)容字?jǐn)?shù):4665字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI22倍加速還不夠,再來提升46%,而且方法直接開源!
這就是開源社區(qū)改進(jìn)MIT爆火項(xiàng)目StreamingLLM的最新成果。
StreamingLLM可以在不犧牲生成效果、推理速度的前提下,實(shí)現(xiàn)多輪對(duì)話共400萬個(gè)token,22.2倍推理速度提升。
該項(xiàng)目在上線不到3個(gè)月時(shí)間內(nèi),GitHub項(xiàng)目標(biāo)星達(dá)到5.7k star。
不過,StreamingLLM使用原生PyTorch實(shí)現(xiàn),對(duì)于多輪對(duì)話推理場景落地應(yīng)用的低成本、低延遲、高吞吐等需求仍有優(yōu)化空間。
Colossal-AI團(tuán)隊(duì)開源了SwiftInfer,基于TensorRT的StreamingLLM,可以進(jìn)一步提升大模型推理性能46%,有效解決如上問題。
具體如何實(shí)現(xiàn)?一起來看。
開源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM如何實(shí)現(xiàn)超長多輪對(duì)話?大語言模型能夠記住的上下文長度,直接影響了ChatGPT等大模型應(yīng)用與用戶互動(dòng)的質(zhì)量。
如何讓LLM在多輪對(duì)話場景下保持生成質(zhì)量,對(duì)推理系統(tǒng)提出了更高的要求,因?yàn)長LM在預(yù)
原文鏈接:400萬token上下文、推理再加速46%!最新開源方案升級(jí)MIT成果,推理成本再降低
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破