阿里云：進一步壓榨云上GPU資源，將大模型訓推效率最大化丨GenAICon 2024

AIGC動態2年前 (2024)發布智東西

阿里云李鵬：進一步壓榨云上GPU資源，將大模型訓推效率最大化丨GenAICon 2024

AIGC動態歡迎閱讀

原標題：阿里云：進一步壓榨云上GPU資源，將大模型訓推效率最大化丨GenAICon 2024
關鍵字：模型,顯存,性能,場景,帶寬
文章來源：智東西
內容字數：9149字

內容摘要：

阿里云用創新調優方法節省通信開銷。
2024中國生成式AI大會于4月18-19日在北京舉行，在大會第二天的主會場AI Infra專場上，阿里云高級技術專家、阿里云異構計算AI推理團隊負責人以《AI基礎設施的演進與挑戰》為題發表演講。
談道，大模型的發展給計算體系結構帶來了功耗墻、內存墻和通訊墻等多重挑戰。其中，大模型訓練層面，用戶在模型裝載、模型并行、通信等環節面臨各種現實問題；在大模型推理層面，用戶在顯存、帶寬、量化上面臨性能瓶頸。
對于如何進一步釋放云上性能？阿里云彈性計算為云上客戶提供了ECS GPU DeepGPU增強工具包，幫助用戶在云上高效地構建AI訓練和AI推理基礎設施，從而提高算力利用效率。
目前，阿里云ECS DeepGPU已經幫助眾多客戶實現性能的大幅提升。其中，LLM微調訓練場景下性能最高可提升80%，Stable Difussion推理場景下性能最高可提升60%。
以下為的演講實錄：
今天我分享的是關于AI基礎設施的演進和挑戰。我講的內容分三個部分：第一部分是關于生成式AI對云基礎設施的挑戰；第二部分是如何進一步壓榨云上GPU資源的性能，保證訓練和推

原文鏈接：阿里云：進一步壓榨云上GPU資源，將大模型訓推效率最大化丨GenAICon 2024