AIGC動態歡迎閱讀
文章來源:量子位
內容字數:12295字
內容摘要:作者:英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊編者按:只需不到9行代碼,就能在CPU上實現出色的LLM推理性能。英特爾?Extension for Transformer創新工具包中的LLM Runtime為諸多模型顯著降低時延,且首個token和下一個token的推理速度分別提升多達40倍和2.68倍,還能滿足更多場景應用需求。英特爾?Extension for Transformer是什么?英特爾?Extension for Transformers[1]是英特爾推出的一個創新工具包,可基于英特爾?架構平臺,尤其是英特爾?至強?可擴展處理器(代號Sapphire Rapids[2],SPR)顯著加速基于Transformer的大語言模型(Large Language Model,LLM)。其主要特性包括:通過擴展Hugging Face transformers API[3]…
原文鏈接:點此閱讀原文:用上這個工具包,大模型推理性能加速達40倍
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...