直擊算力焦慮,這家清華系 AI 創(chuàng)企搞了個(gè)千卡異構(gòu)混訓(xùn)平臺(tái),算力利用率最高達(dá) 97.6%

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:直擊算力焦慮,這家清華系 AI 創(chuàng)企搞了個(gè)千卡異構(gòu)混訓(xùn)平臺(tái),算力利用率最高達(dá) 97.6%
關(guān)鍵字:華為,芯片,模型,通信,解讀
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
以 GPT-4 為主要代表的大模型在自然語(yǔ)言處理、機(jī)器翻譯和文本生成等任務(wù)中表現(xiàn)出了卓越的效能,從而給各個(gè)領(lǐng)域帶來了性的變化。隨著模型的參數(shù)從數(shù)百萬擴(kuò)展到數(shù)十億甚至數(shù)萬億,也帶來了巨大的計(jì)算和內(nèi)存挑戰(zhàn),大模型訓(xùn)練所用的大規(guī)模算力及相關(guān)技術(shù)成為大模型應(yīng)用落地和產(chǎn)業(yè)發(fā)展最基本的支撐。然而隨著對(duì)大規(guī)模集群需求的日益增加,算力荒的問題也逐漸顯現(xiàn),如何破局這一困境成為了行業(yè)亟待解決的關(guān)鍵問題。
7 月 4 日,在 2024 年世界人工智能大會(huì) AI 基礎(chǔ)設(shè)施論壇上,無問芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪發(fā)布了全球首個(gè)千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺(tái),和同構(gòu)訓(xùn)練相比,千卡異構(gòu)混合訓(xùn)練利用率最高達(dá)到了 97.6%。這也是全球首個(gè)可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺(tái),具備萬卡擴(kuò)展性,支持包括 AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練。
當(dāng)前,全球范圍內(nèi)在大模型訓(xùn)練領(lǐng)域,主流做法是結(jié)合 PyTorch、Megatron 等先進(jìn)的計(jì)算框架與英偉達(dá)(NVIDIA)的 GPU 芯片進(jìn)行高效分布式訓(xùn)練。盡管英偉達(dá) GPU 在大模型訓(xùn)練所需的算力供給中占據(jù)主導(dǎo)地
原文鏈接:直擊算力焦慮,這家清華系 AI 創(chuàng)企搞了個(gè)千卡異構(gòu)混訓(xùn)平臺(tái),算力利用率最高達(dá) 97.6%
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號(hào)