焱融科技張文濤：將大模型訓練效率提升40%！詳解多云架構下高效存儲策略丨GenAICon 2024

AIGC動態歡迎閱讀

原標題：焱融科技張文濤：將大模型訓練效率提升40%！詳解多云架構下高效存儲策略丨GenAICon 2024
關鍵字：數據,模型,集群,解讀,報告
文章來源：智東西
內容字數：11390字

內容摘要：

破題大模型算力荒，如何打造高性能存儲底盤？
2024中國生成式AI大會于4月18-19日在北京舉行，在大會第二天的主會場AI Infra專場上，焱融科技CTO張文濤以《多云環境下大模型訓練和推理的高效存儲》為題發表演講。
隨著大模型訓練和推理需要的算力越來越高，單個數據中心已經無法滿足大模型訓練所需要的算力要求，需要多數據中心進行訓練和推理。
多個數據中心存在多份數據拷貝的成本越來越大，如何在保證性能的前提下，讓數據按需跟隨算力進行流轉，成為大模型廠商和存儲廠商要解決的難題。從數據加載、模型加載到Checkpoint保存等過程中，存在大量的讀寫請求、元數據訪問和內存拷貝等操作。在此背景下，張文濤解讀了存儲對大模型訓練和推理的重要性和一些可行方法。
對于多模態大模型，高性能存儲對訓練的提升效果更好，效率可提升20-40%。針對訓練推理，焱融科技推出了多云存儲解決方案。基于統一的數據湖底座，通過數據編排將數據按需加載到數據中心，并異步將新增的模型數據推到數據湖。數據加載支持對接OSS、COS、BOS等各大主流對象存儲平臺。
以下為張文濤的演講實錄：
炎融科技專注于高性能分布式文件存儲，是英

原文鏈接：焱融科技張文濤：將大模型訓練效率提升40%！詳解多云架構下高效存儲策略丨GenAICon 2024