今日Arxiv最熱NLP大模型論文:清華大學(xué)讓大語言模型自動并行自回歸解碼,速度提升高達(dá)4倍!

AIGC動態(tài)歡迎閱讀
原標(biāo)題:今日Arxiv最熱NLP大模型論文:清華大學(xué)讓大語言模型自動并行自回歸解碼,速度提升高達(dá)4倍!
關(guān)鍵字:解讀,模型,吞吐量,序列,緩存
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):11566字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 賽博馬良
本文內(nèi)容由 賽博馬良「AI論文解讀達(dá)人」 智能體生成,人工整理排版。
「AI論文解讀達(dá)人」 可提供最熱AI論文推薦、論文解讀等功能。
傳送門:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
引言:大型語言模型的高效部署挑戰(zhàn)隨著大型語言模型(LLMs)在各種人工智能應(yīng)用中的廣泛應(yīng)用,對于這些模型的高效部署需求日益增長。高效部署在這里指的是低延遲和高吞吐量。然而,LLMs的基礎(chǔ)自回歸(AR)結(jié)構(gòu)給實(shí)現(xiàn)更高效的服務(wù)帶來了顯著挑戰(zhàn)。首先,自回歸解碼過程中,每一個新的詞元都是基于之前生成的所有詞元條件生成的,這種增量式解碼導(dǎo)致生成速度不理想,因?yàn)槊恳徊缴啥夹枰L問LLM的大量參數(shù)。其次,Transformer模型在生成過程中對所有前序詞元的注意力計(jì)算也限制了服務(wù)吞吐量。在高吞吐量場景中,許多序列并行生成,生成過程變得計(jì)算密集型。同時,注意力計(jì)算的成本與序列長度線性增長,尤其對于長響應(yīng),這限制了吞吐量的進(jìn)一步提高。此外,為生成的詞元緩存鍵
原文鏈接:今日Arxiv最熱NLP大模型論文:清華大學(xué)讓大語言模型自動并行自回歸解碼,速度提升高達(dá)4倍!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。

粵公網(wǎng)安備 44011502001135號