DeepSeek 萬(wàn)卡集群及軟硬件協(xié)同設(shè)計(jì)框架Fire-Flyer AI-HPC
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:DeepSeek 萬(wàn)卡集群及軟硬件協(xié)同設(shè)計(jì)框架Fire-Flyer AI-HPC
關(guān)鍵字:節(jié)點(diǎn),解讀,交換機(jī),架構(gòu),算法
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
GTIC 2024中國(guó)AI PC創(chuàng)新峰會(huì)將于10月11日,在2024上海國(guó)際消費(fèi)電子展TechG同期舉辦。聯(lián)想集團(tuán)首席研究員顏毅強(qiáng)、榮耀終端有限公司PC產(chǎn)品研發(fā)系統(tǒng)部部長(zhǎng)席迎軍等7位嘉賓,將分別圍繞面向大模型的個(gè)人計(jì)算體系和交互、AI 重構(gòu)PC、RISC-V AI芯片、AIGC在端側(cè)產(chǎn)品的發(fā)展、操作系統(tǒng)與AI技術(shù)結(jié)合探索、聯(lián)合模型和硬件的優(yōu)化適配平臺(tái)MLGuider、智能體個(gè)人助理等議題進(jìn)行演講,歡迎報(bào)名~本文提出Fire-Flyer AI-HPC框架,在DL訓(xùn)練中部署含1萬(wàn)個(gè)PCIe A100 GPU的Fire-Flyer 2,實(shí)現(xiàn)了接近NVIDIA DGX-A100的性能,同時(shí)將成本降低近一半,能源消耗降低了40%。同時(shí)提出HFReduce算法來(lái)加速allreduce通信,并通過(guò)優(yōu)化保證計(jì)算-存儲(chǔ)集成網(wǎng)絡(luò)無(wú)擁塞。此外還利用HaiScale、3FS和HAI-Platform等軟件棧,通過(guò)重疊計(jì)算和通信等方法實(shí)現(xiàn)系統(tǒng)整體可擴(kuò)展性。
論文地址:
https://arxiv.org/pdf/2408.14158
01Fire-Flyer 2:支持DL和早期LLM訓(xùn)練團(tuán)隊(duì)基于實(shí)際工作負(fù)載,使
原文鏈接:DeepSeek 萬(wàn)卡集群及軟硬件協(xié)同設(shè)計(jì)框架Fire-Flyer AI-HPC
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: