3FS – DeepSeek推出的高性能分布式文件系統(tǒng)
3FS(Fire-Flyer File System)是DeepSeek推出的一款高效分布式文件系統(tǒng),專門為人工智能的訓練和推理任務而設計。它利用現(xiàn)代SSD和RDMA網(wǎng)絡技術,通過分離式架構整合數(shù)千個SSD的吞吐量和數(shù)百個存儲節(jié)點的網(wǎng)絡帶寬,能夠?qū)崿F(xiàn)高達6.6 TiB/s的讀取吞吐量。此外,3FS確保強一致性并提供通用文件接口,用戶無需學習新的存儲API。
3FS是什么
3FS(Fire-Flyer File System)是由DeepSeek開發(fā)的高性能分布式文件系統(tǒng),專門針對人工智能的訓練和推理任務進行優(yōu)化。利用現(xiàn)代SSD和RDMA網(wǎng)絡技術,3FS通過分離式架構聚合數(shù)千個SSD的高吞吐量以及數(shù)百個存儲節(jié)點的網(wǎng)絡帶寬,提供高達6.6 TiB/s的讀取速率。3FS不僅提供強一致性保障,還支持通用文件接口,用戶無需學習新的存儲API。其在大規(guī)模數(shù)據(jù)處理和推理優(yōu)化方面表現(xiàn)卓越,在GraySort測試中實現(xiàn)了3.66 TiB/min的吞吐量,而KVCache的讀取吞吐量可達40 GiB/s。

3FS的主要功能
- 卓越的數(shù)據(jù)訪問性能:聚合數(shù)千個SSD的吞吐量,結合數(shù)百個存儲節(jié)點的網(wǎng)絡帶寬,提供高達6.6 TiB/s的讀取速率。支持大規(guī)模集群中的高吞吐量并行讀寫,極大優(yōu)化AI訓練和推理任務中的數(shù)據(jù)加載效率。
- 強一致性保障:通過鏈式復制與分配查詢(CRAQ)技術確保數(shù)據(jù)的一致性,簡化應用開發(fā)過程。
- 通用文件接口:提供無狀態(tài)的元數(shù)據(jù)服務,支持事務性鍵值存儲(如FoundationDB),用戶無需學習新的存儲API。
- 優(yōu)化AI工作負載:
- 高效的數(shù)據(jù)準備:有效管理大量中間輸出,支持層次化目錄結構。
- 快速數(shù)據(jù)加載:支持跨計算節(jié)點的隨機訪問,無需預取或數(shù)據(jù)集的洗牌。
- 檢查點支持:為大規(guī)模訓練提供高吞吐量并行檢查點功能。
- KVCache技術:為推理任務提供高吞吐量、大容量的緩存方案,優(yōu)化推理效率。
- 高擴展性與靈活性:支持大規(guī)模集群部署,適用于從單節(jié)點到數(shù)千節(jié)點的多種應用場景。
3FS的技術原理
- 分離式架構:采用計算與存儲分離的設計方式,集中管理存儲資源,通過高速網(wǎng)絡(如RDMA)實現(xiàn)高效的數(shù)據(jù)傳輸,簡化資源管理。
- 鏈式復制與分配查詢(CRAQ):通過CRAQ技術實現(xiàn)強一致性,利用鏈式復制確保多個副本間的數(shù)據(jù)一致性,并通過分配查詢優(yōu)化讀取性能,降低延遲。
- 無狀態(tài)元數(shù)據(jù)服務:3FS的無狀態(tài)元數(shù)據(jù)服務基于事務性鍵值存儲(如FoundationDB),提高系統(tǒng)可擴展性,降低元數(shù)據(jù)管理復雜度。
- Direct I/O與RDMA優(yōu)化:采用Direct I/O直接訪問SSD,避免使用文件緩存,減少CPU和內(nèi)存開銷,并利用RDMA技術提升數(shù)據(jù)傳輸效率。
- KVCache技術:在推理任務中,KVCache緩存關鍵中間結果,避免重復計算,顯著提高推理效率。KVCache結合高吞吐量和大容量的優(yōu)勢,是DRAM緩存的經(jīng)濟替代方案。
- 數(shù)據(jù)局部性優(yōu)化:通過優(yōu)化數(shù)據(jù)布局和訪問模式,降低數(shù)據(jù)傳輸延遲和帶寬消耗,尤其在大規(guī)模分布式訓練和推理任務中表現(xiàn)優(yōu)異。
3FS的性能表現(xiàn)
- 大規(guī)模讀取吞吐量:在一個由180個存儲節(jié)點組成的集群中,每個存儲節(jié)點配備2×200Gbps InfiniBand網(wǎng)卡和16個14TiB NVMe SSD。約500+個客戶端節(jié)點用于讀取壓力測試,每個客戶端節(jié)點配置1×200Gbps InfiniBand網(wǎng)卡。在訓練作業(yè)的背景流量下,最終聚合讀取吞吐量達到約6.6 TiB/s。
- GraySort性能測試:在GraySort基準測試中,3FS表現(xiàn)出色。GraySort是一項用于衡量分布式系統(tǒng)數(shù)據(jù)處理能力的大規(guī)模數(shù)據(jù)排序測試。測試集群包含25個存儲節(jié)點(每個節(jié)點2個NUMA域,每個域1個存儲服務,2×400Gbps NIC)和50個計算節(jié)點(每個節(jié)點192個物理核心,2.2 TiB內(nèi)存,1×200Gbps NIC)。3FS成功在該測試中完成110.5 TiB數(shù)據(jù)的排序任務,耗時僅為30分鐘14秒,平均吞吐量達到3.66 TiB/min。
- KVCache推理優(yōu)化:KVCache是3FS為優(yōu)化大型語言模型推理過程而設計的緩存技術,基于緩存解碼層中的關鍵向量和值向量,避免重復計算。在KVCache的性能測試中,讀取吞吐量峰值達到了40 GiB/s,顯著提升了推理效率。KVCache的垃圾回收(GC)操作表現(xiàn)出高IOPS性能,確保緩存的高效管理和更新。

3FS的項目地址
- GitHub倉庫:https://github.com/deepseek-ai/3FS
3FS的應用場景
- 大規(guī)模AI訓練:高效支持海量數(shù)據(jù)的快速讀寫,提升訓練效率。
- 分布式數(shù)據(jù)處理:優(yōu)化數(shù)據(jù)加載和管理,支持隨機訪問,無需預取或數(shù)據(jù)集的洗牌。
- 推理優(yōu)化:通過KVCache緩存中間結果,減少重復計算,提升推理效率。
- 檢查點支持:提供高吞吐量的并行檢查點功能,保障訓練任務的穩(wěn)定性和可恢復性。
- 多節(jié)點計算環(huán)境:無縫集成到大規(guī)模集群,支持靈活擴展,滿足不同規(guī)模的AI應用需求。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...

粵公網(wǎng)安備 44011502001135號