AIGC動態歡迎閱讀
原標題:Kimi 背后的長文本大模型推理實踐:以 KVCache 為中心的分離式推理架構
關鍵字:上下文,緩存,模型,階段,用戶
文章來源:AI前線
內容字數:0字
內容摘要:
演講嘉賓|唐飛虎
編輯 |蔡芳芳
策劃 |AICon 全球人工智能開發與應用大會
在不久前舉辦的 AICon 全球人工智能開發與應用大會上,月之暗面高級研發工程師、開發者關系負責人唐飛虎發表了專題演講“長文本大模型推理實踐——以 KVCache 為中心的分離式推理架構”,分享介紹 Kimi 智能助手背后的推理加速方案,以及該方案在設計時所需要考慮的指標和在真實生產環境中部署的表現。
在 10 月 18 -19 日即將召開的 QCon 上海站上,我們專門策劃了【大模型基礎設施與算力優化】專場,并邀請到月之暗面推理系統負責人何蔚然進一步分享 Mooncake 分離式推理架構創新與實踐,同時微軟亞洲研究院軟件開發工程師姜慧強將分享 《長文本 LLMs 推理優化:動態稀疏性算法的應用實踐》,還有更多大模型訓練推理的一手實踐案例盡在本專題。欲了解更多精彩內容,可訪問大會官網:https://qcon.infoq.cn/2024/shanghai/schedule
以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。
提到 Kimi,相信在座的各位都有所耳聞。Kimi 智能助手在多個平臺上
原文鏈接:Kimi 背后的長文本大模型推理實踐:以 KVCache 為中心的分離式推理架構
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...