清華汪玉教授團隊支招：如何把“大”模型部署到“小”設備上 | Q福利

AIGC動態1年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：清華汪玉教授團隊支招：如何把“大”模型部署到“小”設備上 | Q福利
關鍵字：模型,華為,算法,高效,神經網絡
文章來源：AI前線
內容字數：0字

內容摘要：

2024 年，由 AI 驅動的 GPT-4o 等應用產品爆紅。這些熱門產品的廣闊應用前景令人振奮，吸引了大量資源投入 AI 的算法研究、數據清洗、算力等方面的基礎建設中。
這些爆款應用是由大數據訓練的大模型支撐的。
舉例來說，近年來，大語言模型的訓練數據和模型的體量迅速增長，從 2017 年發布的有 1.65 億參數量的 Transformer，到 2020 年發布的有 1750 億參數量的 GPT-3，再到 2022 年發布的 ChatGPT 應用背后的模型也至少有數百億參數量。
這樣的訓練數據和模型體量的增長帶來了模型能力的提升，讓大模型“涌現”出指令跟隨、上下文學習等能力，展示出“通用”的生成能力。
有目共睹的是，生成式任務的智能算法模型擴大，對算力的需求急劇增加。
在這個背景下，高效深度學習領域顯得尤為關鍵，得到了廣泛關注。
如何將“大”模型（參數量大、計算量大）部署到“小”設備上（資源受限，計算和存儲能力低），同時盡量保持算法性能是各應用領域都非常關心的話題。
實際應用場景關心的硬件性能指標主要包括延時（Latency）、吞吐率（Throughput）、功率（Power）、

原文鏈接：清華汪玉教授團隊支招：如何把“大”模型部署到“小”設備上 | Q福利