AAAI 2025 | 大模型推理加速新范式：加速比高達3.51倍、成本降至1/3

翼支付全新「增強半自回歸投機解碼框架」。

原標題：AAAI 2025 | 大模型推理加速新范式：加速比高達3.51倍、成本降至1/3
文章來源：機器之心
內(nèi)容字數(shù)：6782字

中國電信翼支付AAAI 2025論文：Falcon大模型推理加速框架

本文總結(jié)了中國電信翼支付發(fā)表在AAAI 2025上的論文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心內(nèi)容。該論文提出了一種名為Falcon的增強型半自回歸投機解碼框架，顯著提升了大型語言模型(LLMs)的推理速度。

1. 研究背景：LLMs推理速度瓶頸

大型語言模型在各種任務(wù)中表現(xiàn)出色，但其自回歸(AR)解碼方式導致推理速度慢、計算開銷大。投機解碼(Speculative Decoding)方法應(yīng)運而生，它使用輕量級的Draft Model預先生成候選Token，再由原始LLM進行驗證，從而實現(xiàn)并行解碼，提升效率。然而，現(xiàn)有的AR和SAR Draft策略都存在不足：AR Draft并行性差，SAR Draft的Token接受率低。

2. Falcon框架：增強半自回歸投機解碼

為了解決上述問題，翼支付提出了Falcon框架。它包含三個主要組件：Embedding Layer、LM-Head和半自回歸解碼Head。Falcon的核心在于：

Coupled Sequential Glancing Distillation (CSGD)： 通過將真實Token和隱藏狀態(tài)重新注入解碼過程，提高SAR Draft Model的Token接受率，增強了對Token間關(guān)系的理解。
Custom-Designed Decoding Tree (CDT)： 允許Draft Model一次前向傳播生成多個Token，并支持多次前向傳播，有效提升了LLM對Token的接受率，加快了推理速度。它采用了一種特殊的因果掩碼，允許模型訪問同一block內(nèi)的Token及之前的連續(xù)Token。

Falcon的架構(gòu)圖清晰地展示了這三個組件的交互方式以及CSGD和CDT方法在其中的作用。

3. 實驗結(jié)果：顯著的加速效果

實驗結(jié)果表明，F(xiàn)alcon在多個數(shù)據(jù)集和模型上都取得了優(yōu)異的性能，實現(xiàn)了約2.91-3.51倍的加速比，將推理成本降低到約原來的三分之一。

4. 業(yè)務(wù)應(yīng)用：落地翼支付多個業(yè)務(wù)

Falcon技術(shù)已應(yīng)用于翼支付的大模型產(chǎn)品InsightAI平臺，并服務(wù)于數(shù)字人客服、借錢-翼小橙、人力-翼點通、財務(wù)-翼小財?shù)榷鄠€業(yè)務(wù)。

5. 總結(jié)：突破LLMs推理瓶頸

Falcon框架通過CSGD和CDT的巧妙結(jié)合，有效解決了LLMs推理速度瓶頸問題。它在提升Draft Model準確率、采樣效率和LLM驗證效率方面取得了顯著進展，為大模型的實際應(yīng)用提供了強有力的支撐。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# 大模型推理加速 # 模型壓縮 # 神經(jīng)網(wǎng)絡(luò)加速 # 稀疏推理 # 量化訓練

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

AAAI 2025 | 大模型推理加速新范式：加速比高達3.51倍、成本降至1/3

翼支付全新「增強半自回歸投機解碼框架」。

中國電信翼支付AAAI 2025論文：Falcon大模型推理加速框架

1. 研究背景：LLMs推理速度瓶頸

2. Falcon框架：增強半自回歸投機解碼

3. 實驗結(jié)果：顯著的加速效果

4. 業(yè)務(wù)應(yīng)用：落地翼支付多個業(yè)務(wù)

5. 總結(jié)：突破LLMs推理瓶頸

聯(lián)系作者

CES2025進行中，量子位AI專題已就位

獨家丨前微軟亞研院視覺專家胡瀚加入騰訊，負責混元多模態(tài)大模型

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點