焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024
關(guān)鍵字:數(shù)據(jù),模型,集群,解讀,報(bào)告
文章來(lái)源:智東西
內(nèi)容字?jǐn)?shù):11390字
內(nèi)容摘要:
破題大模型算力荒,如何打造高性能存儲(chǔ)底盤(pán)?
2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第二天的主會(huì)場(chǎng)AI Infra專場(chǎng)上,焱融科技CTO張文濤以《多云環(huán)境下大模型訓(xùn)練和推理的高效存儲(chǔ)》為題發(fā)表演講。
隨著大模型訓(xùn)練和推理需要的算力越來(lái)越高,單個(gè)數(shù)據(jù)中心已經(jīng)無(wú)法滿足大模型訓(xùn)練所需要的算力要求,需要多數(shù)據(jù)中心進(jìn)行訓(xùn)練和推理。
多個(gè)數(shù)據(jù)中心存在多份數(shù)據(jù)拷貝的成本越來(lái)越大,如何在保證性能的前提下,讓數(shù)據(jù)按需跟隨算力進(jìn)行流轉(zhuǎn),成為大模型廠商和存儲(chǔ)廠商要解決的難題。從數(shù)據(jù)加載、模型加載到Checkpoint保存等過(guò)程中,存在大量的讀寫(xiě)請(qǐng)求、元數(shù)據(jù)訪問(wèn)和內(nèi)存拷貝等操作。在此背景下,張文濤解讀了存儲(chǔ)對(duì)大模型訓(xùn)練和推理的重要性和一些可行方法。
對(duì)于多模態(tài)大模型,高性能存儲(chǔ)對(duì)訓(xùn)練的提升效果更好,效率可提升20-40%。針對(duì)訓(xùn)練推理,焱融科技推出了多云存儲(chǔ)解決方案。基于統(tǒng)一的數(shù)據(jù)湖底座,通過(guò)數(shù)據(jù)編排將數(shù)據(jù)按需加載到數(shù)據(jù)中心,并異步將新增的模型數(shù)據(jù)推到數(shù)據(jù)湖。數(shù)據(jù)加載支持對(duì)接OSS、COS、BOS等各大主流對(duì)象存儲(chǔ)平臺(tái)。
以下為張文濤的演講實(shí)錄:
炎融科技專注于高性能分布式文件存儲(chǔ),是英
原文鏈接:焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024
聯(lián)系作者
文章來(lái)源:智東西
作者微信:zhidxcom
作者簡(jiǎn)介:智能產(chǎn)業(yè)新媒體!智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)升級(jí)。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。

粵公網(wǎng)安備 44011502001135號(hào)