AIGC動態歡迎閱讀
原標題:多輪對話推理速度提升46%,開源方案打破LLM多輪對話的長度限制?
關鍵字:模型,注意力,窗口,機制,效果
文章來源:機器之心
內容字數:4950字
內容摘要:
機器之心發布
機器之心編輯部在大型語言模型(LLM)的世界中,處理多輪對話一直是一個挑戰。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能夠在不犧牲推理速度和生成效果的前提下,可實現多輪對話總共 400 萬個 token 的流式輸入,22.2 倍的推理速度提升。
但 StreamingLLM 使用原生 PyTorch 實現,對于多輪對話推理場景落地應用的低成本、低延遲、高吞吐等需求仍有優化空間。
Colossal-AI 團隊開源了 SwiftInfer,基于 TensorRT 實現了 StreamingLLM,可以進一步提升大模型推理性能 46%,為多輪對話推理提供了高效可靠的落地方案。
開源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM 簡介
大語言模型能夠記住的上下文長度,直接影響了 ChatGPT 等大模型應用與用戶互動的質量。
如何讓 LLM 在多輪對話場景下保持生成質量,對推理系統提出了更高的要求,因為 LLM 在預訓練期間只能在有限的注意力窗口的限制下進行訓練。
常見的 K
原文鏈接:多輪對話推理速度提升46%,開源方案打破LLM多輪對話的長度限制?
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...