單卡A100實(shí)現(xiàn)百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
AIGC動態(tài)歡迎閱讀
原標(biāo)題:單卡A100實(shí)現(xiàn)百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
關(guān)鍵字:上下文,長上,注意力,下文,斜線
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報道
編輯:張倩、陳萍微軟的這項(xiàng)研究讓開發(fā)者可以在單卡機(jī)器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進(jìn)入長上下文處理時代,其支持的上下文窗口從先前的 128K 猛增到 10M token 級別。
然而,由于注意力機(jī)制的二次復(fù)雜度,模型處理輸入提示(即預(yù)填充階段)并開始產(chǎn)生第一個 token 可能需要幾分鐘時間。導(dǎo)致首個 token 生成的時間過長,從而嚴(yán)重影響了用戶體驗(yàn),這也極大地限制了長上下文 LLM 的廣泛應(yīng)用。
舉例來說(如圖 2a 所示),在單臺裝有 A100 的機(jī)器上為 LLaMA-3-8B 提供服務(wù)時,如果提示有 30 萬個 token,模型需要 6 分鐘才能完成預(yù)填充( pre-filling)階段,如果提示增加到 100 萬個 token,這個數(shù)字將增加到 30 分鐘。自注意力計算的開銷占到了總預(yù)填充延遲的 90% 以上,這使其成為 LLM 處理長上下文時的主要瓶頸。現(xiàn)有的加速預(yù)填充方法在應(yīng)用于長上下文 LLM 時通常無法保持可接受的準(zhǔn)確性或效率。
為了解決上述問題,來自微軟、薩里大學(xué)的研究者提出了一種旨在加速長序列處理預(yù)填充的
原文鏈接:單卡A100實(shí)現(xiàn)百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺