翼支付全新「增強半自回歸投機解碼框架」。
原標題:AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3
文章來源:機器之心
內容字數:6782字
中國電信翼支付AAAI 2025論文:Falcon大模型推理加速框架
本文總結了中國電信翼支付發表在AAAI 2025上的論文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心內容。該論文提出了一種名為Falcon的增強型半自回歸投機解碼框架,顯著提升了大型語言模型(LLMs)的推理速度。
1. 研究背景:LLMs推理速度瓶頸
大型語言模型在各種任務中表現出色,但其自回歸(AR)解碼方式導致推理速度慢、計算開銷大。投機解碼(Speculative Decoding)方法應運而生,它使用輕量級的Draft Model預先生成候選Token,再由原始LLM進行驗證,從而實現并行解碼,提升效率。然而,現有的AR和SAR Draft策略都存在不足:AR Draft并行性差,SAR Draft的Token接受率低。
2. Falcon框架:增強半自回歸投機解碼
為了解決上述問題,翼支付提出了Falcon框架。它包含三個主要組件:Embedding Layer、LM-Head和半自回歸解碼Head。Falcon的核心在于:
- Coupled Sequential Glancing Distillation (CSGD): 通過將真實Token和隱藏狀態重新注入解碼過程,提高SAR Draft Model的Token接受率,增強了對Token間關系的理解。
- Custom-Designed Decoding Tree (CDT): 允許Draft Model一次前向傳播生成多個Token,并支持多次前向傳播,有效提升了LLM對Token的接受率,加快了推理速度。它采用了一種特殊的因果掩碼,允許模型訪問同一block內的Token及之前的連續Token。
Falcon的架構圖清晰地展示了這三個組件的交互方式以及CSGD和CDT方法在其中的作用。
3. 實驗結果:顯著的加速效果
實驗結果表明,Falcon在多個數據集和模型上都取得了優異的性能,實現了約2.91-3.51倍的加速比,將推理成本降低到約原來的三分之一。
4. 業務應用:落地翼支付多個業務
Falcon技術已應用于翼支付的大模型產品InsightAI平臺,并服務于數字人客服、借錢-翼小橙、人力-翼點通、財務-翼小財等多個業務。
5. 總結:突破LLMs推理瓶頸
Falcon框架通過CSGD和CDT的巧妙結合,有效解決了LLMs推理速度瓶頸問題。它在提升Draft Model準確率、采樣效率和LLM驗證效率方面取得了顯著進展,為大模型的實際應用提供了強有力的支撐。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺