多輪對話推理速度提升46%,開源方案打破LLM多輪對話的長度限制?

AIGC動態(tài)歡迎閱讀
原標題:多輪對話推理速度提升46%,開源方案打破LLM多輪對話的長度限制?
關(guān)鍵字:模型,注意力,窗口,機制,效果
文章來源:機器之心
內(nèi)容字數(shù):4950字
內(nèi)容摘要:
機器之心發(fā)布
機器之心編輯部在大型語言模型(LLM)的世界中,處理多輪對話一直是一個挑戰(zhàn)。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能夠在不犧牲推理速度和生成效果的前提下,可實現(xiàn)多輪對話總共 400 萬個 token 的流式輸入,22.2 倍的推理速度提升。
但 StreamingLLM 使用原生 PyTorch 實現(xiàn),對于多輪對話推理場景落地應(yīng)用的低成本、低延遲、高吞吐等需求仍有優(yōu)化空間。
Colossal-AI 團隊開源了 SwiftInfer,基于 TensorRT 實現(xiàn)了 StreamingLLM,可以進一步提升大模型推理性能 46%,為多輪對話推理提供了高效可靠的落地方案。
開源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM 簡介
大語言模型能夠記住的上下文長度,直接影響了 ChatGPT 等大模型應(yīng)用與用戶互動的質(zhì)量。
如何讓 LLM 在多輪對話場景下保持生成質(zhì)量,對推理系統(tǒng)提出了更高的要求,因為 LLM 在預(yù)訓練期間只能在有限的注意力窗口的限制下進行訓練。
常見的 K
原文鏈接:多輪對話推理速度提升46%,開源方案打破LLM多輪對話的長度限制?
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號