AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3
翼支付全新「增強半自回歸投機解碼框架」。
原標題:AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3
文章來源:機器之心
內(nèi)容字數(shù):6782字
中國電信翼支付AAAI 2025論文:Falcon大模型推理加速框架
本文總結(jié)了中國電信翼支付發(fā)表在AAAI 2025上的論文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心內(nèi)容。該論文提出了一種名為Falcon的增強型半自回歸投機解碼框架,顯著提升了大型語言模型(LLMs)的推理速度。
1. 研究背景:LLMs推理速度瓶頸
大型語言模型在各種任務(wù)中表現(xiàn)出色,但其自回歸(AR)解碼方式導致推理速度慢、計算開銷大。投機解碼(Speculative Decoding)方法應(yīng)運而生,它使用輕量級的Draft Model預先生成候選Token,再由原始LLM進行驗證,從而實現(xiàn)并行解碼,提升效率。然而,現(xiàn)有的AR和SAR Draft策略都存在不足:AR Draft并行性差,SAR Draft的Token接受率低。
2. Falcon框架:增強半自回歸投機解碼
為了解決上述問題,翼支付提出了Falcon框架。它包含三個主要組件:Embedding Layer、LM-Head和半自回歸解碼Head。Falcon的核心在于:
- Coupled Sequential Glancing Distillation (CSGD): 通過將真實Token和隱藏狀態(tài)重新注入解碼過程,提高SAR Draft Model的Token接受率,增強了對Token間關(guān)系的理解。
- Custom-Designed Decoding Tree (CDT): 允許Draft Model一次前向傳播生成多個Token,并支持多次前向傳播,有效提升了LLM對Token的接受率,加快了推理速度。它采用了一種特殊的因果掩碼,允許模型訪問同一block內(nèi)的Token及之前的連續(xù)Token。
Falcon的架構(gòu)圖清晰地展示了這三個組件的交互方式以及CSGD和CDT方法在其中的作用。
3. 實驗結(jié)果:顯著的加速效果
實驗結(jié)果表明,F(xiàn)alcon在多個數(shù)據(jù)集和模型上都取得了優(yōu)異的性能,實現(xiàn)了約2.91-3.51倍的加速比,將推理成本降低到約原來的三分之一。
4. 業(yè)務(wù)應(yīng)用:落地翼支付多個業(yè)務(wù)
Falcon技術(shù)已應(yīng)用于翼支付的大模型產(chǎn)品InsightAI平臺,并服務(wù)于數(shù)字人客服、借錢-翼小橙、人力-翼點通、財務(wù)-翼小財?shù)榷鄠€業(yè)務(wù)。
5. 總結(jié):突破LLMs推理瓶頸
Falcon框架通過CSGD和CDT的巧妙結(jié)合,有效解決了LLMs推理速度瓶頸問題。它在提升Draft Model準確率、采樣效率和LLM驗證效率方面取得了顯著進展,為大模型的實際應(yīng)用提供了強有力的支撐。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺