用上這個(gè)工具包，大模型推理性能加速達(dá)40倍

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：用上這個(gè)工具包，大模型推理性能加速達(dá)40倍

關(guān)鍵字：英特爾,性能,高效,大小,模型

文章來源：量子位

內(nèi)容字?jǐn)?shù)：12295字

內(nèi)容摘要：作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。英特爾?Extension for Transformer創(chuàng)新工具包中的LLM Runtime為諸多模型顯著降低時(shí)延，且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍，還能滿足更多場景應(yīng)用需求。英特爾?Extension for Transformer是什么？英特爾?Extension for Transformers[1]是英特爾推出的一個(gè)創(chuàng)新工具包，可基于英特爾?架構(gòu)平臺(tái)，尤其是英特爾?至強(qiáng)?可擴(kuò)展處理器（代號(hào)Sapphire Rapids[2]，SPR）顯著加速基于Transformer的大語言模型(Large Language Model,LLM)。其主要特性包括：通過擴(kuò)展Hugging Face transformers API[3]…

原文鏈接：點(diǎn)此閱讀原文：用上這個(gè)工具包，大模型推理性能加速達(dá)40倍