AIGC動態歡迎閱讀
原標題:單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
關鍵字:上下文,長上,注意力,下文,斜線
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:張倩、陳萍微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進入長上下文處理時代,其支持的上下文窗口從先前的 128K 猛增到 10M token 級別。
然而,由于注意力機制的二次復雜度,模型處理輸入提示(即預填充階段)并開始產生第一個 token 可能需要幾分鐘時間。導致首個 token 生成的時間過長,從而嚴重影響了用戶體驗,這也極大地限制了長上下文 LLM 的廣泛應用。
舉例來說(如圖 2a 所示),在單臺裝有 A100 的機器上為 LLaMA-3-8B 提供服務時,如果提示有 30 萬個 token,模型需要 6 分鐘才能完成預填充( pre-filling)階段,如果提示增加到 100 萬個 token,這個數字將增加到 30 分鐘。自注意力計算的開銷占到了總預填充延遲的 90% 以上,這使其成為 LLM 處理長上下文時的主要瓶頸。現有的加速預填充方法在應用于長上下文 LLM 時通常無法保持可接受的準確性或效率。
為了解決上述問題,來自微軟、薩里大學的研究者提出了一種旨在加速長序列處理預填充的
原文鏈接:單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...