萬字綜述大模型高效推理：無問芯穹與清華、上交最新聯合研究全面解析大模型推理優化

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：萬字綜述大模型高效推理：無問芯穹與清華、上交最新聯合研究全面解析大模型推理優化
關鍵字：模型,技術,語言,高效,算子
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心發布
作者：寧雪妃、周紫軒（無問芯穹TechView）近年來，大語言模型（Large Language Models, LLMs）受到學術界和工業界的廣泛關注，得益于其在各種語言生成任務上的出色表現，大語言模型推動了各種人工智能應用（例如ChatGPT、Copilot等）的發展。然而，大語言模型的落地應用受到其較大的推理開銷的限制，對部署資源、用戶體驗、經濟成本都帶來了巨大挑戰。例如，將包含700億參數量的LLaMA-2-70B模型進行部署推理，至少需要6張RTX 3090Ti顯卡或2張NVIDIA A100顯卡，以部署在A100顯卡上為例，該模型生成512長度的詞塊（token）序列需要耗時超過50秒。
許多研究工作致力于設計優化大語言模型推理開銷的技術，優化模型的推理延遲、吞吐、功耗和存儲等指標，成為許多研究的重要目標。為了對這些優化技術有更全面、更系統的認知，為大語言模型的部署實踐和未來研究提供建議和指南，來自清華大學電子工程系、無問芯穹和上海交通大學的研究團隊對大語言模型的高效推理技術進行了一次全面的調研和整理，在《A Survey on Efficient Infer

原文鏈接：萬字綜述大模型高效推理：無問芯穹與清華、上交最新聯合研究全面解析大模型推理優化