大模型無限流式輸入推理飆升46%!國產(chǎn)開源加速「全家桶」,打破多輪對話長度限制
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型無限流式輸入推理飆升46%!國產(chǎn)開源加速「全家桶」,打破多輪對話長度限制
關(guān)鍵字:模型,注意力,窗口,機(jī)制,效果
文章來源:新智元
內(nèi)容字?jǐn)?shù):4453字
內(nèi)容摘要:
新智元報道編輯:好困 桃子
【新智元導(dǎo)讀】大模型推理再次躍升一個新臺階!最近,全新開源的國產(chǎn)SwiftInfer方案,不僅能讓LLM處理無限流式輸入,而且還將推理性能提升了46%。在大型語言模型(LLM)的世界中,處理多輪對話一直是一個挑戰(zhàn)。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能夠在不犧牲推理速度和生成效果的前提下,可實現(xiàn)多輪對話總共400萬個token的流式輸入,22.2倍的推理速度提升。
但StreamingLLM使用原生PyTorch實現(xiàn),對于多輪對話推理場景落地應(yīng)用的低成本、低延遲、高吞吐等需求仍有優(yōu)化空間。
Colossal-AI團(tuán)隊開源了SwiftInfer,基于TensorRT實現(xiàn)了StreamingLLM,可以進(jìn)一步提升大模型推理性能46%,為多輪對話推理提供了高效可靠的落地方案。
開源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM簡介大語言模型能夠記住的上下文長度,直接影響了ChatGPT等大模型應(yīng)用與用戶互動的質(zhì)量。
如何讓LLM在多輪對話場景下保持生成質(zhì)量,
原文鏈接:大模型無限流式輸入推理飆升46%!國產(chǎn)開源加速「全家桶」,打破多輪對話長度限制
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。