單卡A100實(shí)現(xiàn)百萬token推理，速度快10倍，這是微軟官方的大模型推理加速

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：單卡A100實(shí)現(xiàn)百萬token推理，速度快10倍，這是微軟官方的大模型推理加速
關(guān)鍵字：上下文,長上,注意力,下文,斜線
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報道
編輯：張倩、陳萍微軟的這項(xiàng)研究讓開發(fā)者可以在單卡機(jī)器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進(jìn)入長上下文處理時代，其支持的上下文窗口從先前的 128K 猛增到 10M token 級別。
然而，由于注意力機(jī)制的二次復(fù)雜度，模型處理輸入提示（即預(yù)填充階段）并開始產(chǎn)生第一個 token 可能需要幾分鐘時間。導(dǎo)致首個 token 生成的時間過長，從而嚴(yán)重影響了用戶體驗(yàn)，這也極大地限制了長上下文 LLM 的廣泛應(yīng)用。
舉例來說（如圖 2a 所示），在單臺裝有 A100 的機(jī)器上為 LLaMA-3-8B 提供服務(wù)時，如果提示有 30 萬個 token，模型需要 6 分鐘才能完成預(yù)填充（ pre-filling）階段，如果提示增加到 100 萬個 token，這個數(shù)字將增加到 30 分鐘。自注意力計算的開銷占到了總預(yù)填充延遲的 90% 以上，這使其成為 LLM 處理長上下文時的主要瓶頸。現(xiàn)有的加速預(yù)填充方法在應(yīng)用于長上下文 LLM 時通常無法保持可接受的準(zhǔn)確性或效率。
為了解決上述問題，來自微軟、薩里大學(xué)的研究者提出了一種旨在加速長序列處理預(yù)填充的

原文鏈接：單卡A100實(shí)現(xiàn)百萬token推理，速度快10倍，這是微軟官方的大模型推理加速