AIGC動態歡迎閱讀
原標題:Kimi論文自曝推理架構,80%流量都靠它承擔
關鍵字:節點,負載,緩存,知乎,策略
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI月之暗面和清華KVCache.ai團隊的最新論文,首次揭秘了Kimi背后的推理架構!
要知道Kimi是國產大模型的當紅炸子雞,火到可以說從來沒缺過流量,甚至還經常出現過載。
而隨著論文的發布,這潑天的流量到底如何被Kimi接住的問題,也有了答案。
Kimi背后的推理架構名叫Mooncake(月餅),主要特點是采取了分離式的設計方案。
而且,Mooncake在設計之時就考慮了可能出現的大流量場景,并針對這種情況專門研發。
在模擬場景下,Mooncake最高能帶來525%的吞吐量增長,實際場景中也能多處理75%請求。
另據月之暗面工程副總裁許欣然的一篇知乎文章介紹,Kimi有80%以上的流量,都是由該系統承接。
從KV緩存出發,建造分布式系統整個Mooncake系統設計的核心,是圍繞著KV緩存展開的。
(KV緩存用于存儲鍵-值對(Key-Value Pairs),主要優勢在于可以簡單高效地訪問和檢索數據,在大模型當中可以提高推理速度并減少計算資源消耗。)
之所以這樣做,是因為團隊預計KV緩存的容量會長期保持高位,因此圍繞KV緩存進行優化十
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...