AIGC動態歡迎閱讀
原標題:焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024
關鍵字:數據,模型,集群,解讀,報告
文章來源:智東西
內容字數:11390字
內容摘要:
破題大模型算力荒,如何打造高性能存儲底盤?
2024中國生成式AI大會于4月18-19日在北京舉行,在大會第二天的主會場AI Infra專場上,焱融科技CTO張文濤以《多云環境下大模型訓練和推理的高效存儲》為題發表演講。
隨著大模型訓練和推理需要的算力越來越高,單個數據中心已經無法滿足大模型訓練所需要的算力要求,需要多數據中心進行訓練和推理。
多個數據中心存在多份數據拷貝的成本越來越大,如何在保證性能的前提下,讓數據按需跟隨算力進行流轉,成為大模型廠商和存儲廠商要解決的難題。從數據加載、模型加載到Checkpoint保存等過程中,存在大量的讀寫請求、元數據訪問和內存拷貝等操作。在此背景下,張文濤解讀了存儲對大模型訓練和推理的重要性和一些可行方法。
對于多模態大模型,高性能存儲對訓練的提升效果更好,效率可提升20-40%。針對訓練推理,焱融科技推出了多云存儲解決方案。基于統一的數據湖底座,通過數據編排將數據按需加載到數據中心,并異步將新增的模型數據推到數據湖。數據加載支持對接OSS、COS、BOS等各大主流對象存儲平臺。
以下為張文濤的演講實錄:
炎融科技專注于高性能分布式文件存儲,是英
原文鏈接:焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024
聯系作者
文章來源:智東西
作者微信:zhidxcom
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...