AIGC動態歡迎閱讀
原標題:今日Arxiv最熱NLP大模型論文:清華大學讓大語言模型自動并行自回歸解碼,速度提升高達4倍!
關鍵字:解讀,模型,吞吐量,序列,緩存
文章來源:夕小瑤科技說
內容字數:11566字
內容摘要:
夕小瑤科技說 原創作者 | 賽博馬良
本文內容由 賽博馬良「AI論文解讀達人」 智能體生成,人工整理排版。
「AI論文解讀達人」 可提供最熱AI論文推薦、論文解讀等功能。
傳送門:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
引言:大型語言模型的高效部署挑戰隨著大型語言模型(LLMs)在各種人工智能應用中的廣泛應用,對于這些模型的高效部署需求日益增長。高效部署在這里指的是低延遲和高吞吐量。然而,LLMs的基礎自回歸(AR)結構給實現更高效的服務帶來了顯著挑戰。首先,自回歸解碼過程中,每一個新的詞元都是基于之前生成的所有詞元條件生成的,這種增量式解碼導致生成速度不理想,因為每一步生成都需要訪問LLM的大量參數。其次,Transformer模型在生成過程中對所有前序詞元的注意力計算也限制了服務吞吐量。在高吞吐量場景中,許多序列并行生成,生成過程變得計算密集型。同時,注意力計算的成本與序列長度線性增長,尤其對于長響應,這限制了吞吐量的進一步提高。此外,為生成的詞元緩存鍵
原文鏈接:今日Arxiv最熱NLP大模型論文:清華大學讓大語言模型自動并行自回歸解碼,速度提升高達4倍!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。