Kimi 背后的長文本大模型推理實踐:以 KVCache 為中心的分離式推理架構(gòu)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Kimi 背后的長文本大模型推理實踐:以 KVCache 為中心的分離式推理架構(gòu)
關(guān)鍵字:上下文,緩存,模型,階段,用戶
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
演講嘉賓|唐飛虎
編輯 |蔡芳芳
策劃 |AICon 全球人工智能開發(fā)與應(yīng)用大會
在不久前舉辦的 AICon 全球人工智能開發(fā)與應(yīng)用大會上,月之暗面高級研發(fā)工程師、開發(fā)者關(guān)系負(fù)責(zé)人唐飛虎發(fā)表了專題演講“長文本大模型推理實踐——以 KVCache 為中心的分離式推理架構(gòu)”,分享介紹 Kimi 智能助手背后的推理加速方案,以及該方案在設(shè)計時所需要考慮的指標(biāo)和在真實生產(chǎn)環(huán)境中部署的表現(xiàn)。
在 10 月 18 -19 日即將召開的 QCon 上海站上,我們專門策劃了【大模型基礎(chǔ)設(shè)施與算力優(yōu)化】專場,并邀請到月之暗面推理系統(tǒng)負(fù)責(zé)人何蔚然進一步分享 Mooncake 分離式推理架構(gòu)創(chuàng)新與實踐,同時微軟亞洲研究院軟件開發(fā)工程師姜慧強將分享 《長文本 LLMs 推理優(yōu)化:動態(tài)稀疏性算法的應(yīng)用實踐》,還有更多大模型訓(xùn)練推理的一手實踐案例盡在本專題。欲了解更多精彩內(nèi)容,可訪問大會官網(wǎng):https://qcon.infoq.cn/2024/shanghai/schedule
以下是演講實錄(經(jīng) InfoQ 進行不改變原意的編輯整理)。
提到 Kimi,相信在座的各位都有所耳聞。Kimi 智能助手在多個平臺上
原文鏈接:Kimi 背后的長文本大模型推理實踐:以 KVCache 為中心的分離式推理架構(gòu)
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介: