零一萬物李謀：當大模型推理遇到算力瓶頸，如何進行工程優化？

AIGC動態1年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：零一萬物李謀：當大模型推理遇到算力瓶頸，如何進行工程優化？
關鍵字：模型,報告,華為,萬物,技術
文章來源：AI前線
內容字數：6230字

內容摘要：

嘉賓 | 李謀
編輯 | 李忠良
自 OpenAI 發布 ChatGPT 起，大語言模型的驚艷效果吸引了越來越多的人和資本關注到該領域，近年模型本身的參數量和序列長度也呈指數級增長，要面對的算力瓶頸問題接踵而至。
在 AICon 全球人工智能開發與應用大會暨大模型應用生態展·2024 上，InfoQ 邀請到了零一萬物資深算法專家李謀發布演講分享，他將結合大模型的的算力需求和模型結構，詳細介紹零一萬物在構建 Yi 模型在線推理服務過程中所運用的優化技術手段。為了讓聽眾了解更多的內容，我們提前采訪了李老師，以下為內容紀要：
InfoQ：您在演講中提到了大模型的算力需求及其增長趨勢，可以詳細介紹一下目前大模型在推理過程中所面臨的主要算力挑戰是什么？針對這種快速增長的算力需求，您認為目前的技術和資源是否足以應對？
李謀：大模型的計算主要分為訓練和推理兩個步驟，他們對于算力的側重點不太一樣。模型訓練側重整體吞吐 (throughput)，需要大規模，高擴展性，低能耗的分布式計算集群，而推理側重延遲 (latency)，在算力方面需要強大的計算芯片，高速的內存訪問技術。這種算力的需求在深度學習

原文鏈接：零一萬物李謀：當大模型推理遇到算力瓶頸，如何進行工程優化？