Mooncake：創新推理架構推動大模型智能應用的新時代

Mooncake是一款由月之暗面Kimi與清華大學等機構聯合開發并開源的大規模模型推理架構。該架構采用以KVCache為核心的分布式設計，通過的預填充和解碼集群，充分挖掘GPU集群中未被充分利用的CPU、DRAM及SSD資源，顯著提升大模型推理的吞吐量并降低計算成本。Mooncake在確保服務延遲相關的服務級別目標（SLO）之下，能夠高效處理高負載場景。

Mooncake是什么

Mooncake是一種旨在優化大模型推理的開源架構，由Kimi與清華大學等多家機構共同開發。其核心基于KVCache的分布式架構，通過將預填充與解碼過程分開，充分利用GPU集群中的CPU、DRAM和SSD等資源，實現高效的緩存管理。Mooncake的最大優勢在于能夠在處理長上下文時顯著提高推理吞吐量，同時降低算力開銷，使其在高負載情況下依然能夠保持良好的響應時間。該項目已在Github上開源，推動了大模型技術的高效推理平臺的進展。

Mooncake的主要功能

高效的大模型推理：Mooncake通過其獨特的分布式架構，優化了大模型的推理過程，尤其在處理長上下文數據時，能夠顯著提高推理的吞吐量。
KVCache中心化設計：以KVCache為核心，Mooncake實現了高效的數據緩存與重用，降低了對GPU資源的依賴，減少了計算成本。
預填充與解碼分離：該架構將預填充和解碼兩個階段分開處理，能夠針對不同計算特性進行優化。
資源優化：通過分離設計，Mooncake能夠更有效地利用CPU、DRAM和SSD資源，提升整體資源利用率。
負載均衡：Mooncake實現了基于緩存負載的均衡策略，通過自動熱點遷移提升了緩存命中率和系統的負載均衡。
過載管理：在高負載情況下，Mooncake采用基于預測的早期拒絕策略，優化資源分配，降低無效計算。
高性能傳輸：基于RDMA技術，Mooncake實現了跨節點的高速KVCache傳輸，顯著降低了延遲。
標準化接口：Mooncake為大模型時代建立了新型高性能內存語義存儲的標準接口，提供了參考實現方案。
成本降低：通過優化推理過程和提高資源利用效率，Mooncake幫助降低大模型推理的整體成本，使AI技術更加經濟高效。

Mooncake的技術原理

分布式架構：充分利用GPU集群中的CPU、DRAM和SSD資源，Mooncake實現了KVCache的分布式存儲與傳輸，提高了緩存容量和傳輸帶寬，降低了對單一GPU的依賴。
全局調度器（Conductor）：負責根據當前KVCache的分布狀態和工作負載情況來調度請求，并決定KVCache塊的復制或交換，以優化整體吞吐量并滿足服務級別目標（SLO）。
分塊流水線并行（Chunked Pipeline Parallelism）：在處理長上下文請求時，將輸入標記分為多個塊，并在不同節點上并行處理，以降低延遲。
Layer-wise預填充：通過異步加載和存儲KVCache，重疊傳輸與計算，減少VRAM占用。
緩存感知調度：Mooncake的調度算法充分考慮KVCache的重用、預填充時間與實例負載的排隊時間，以實現高效的請求調度。