<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3

        AIGC動態(tài)4個月前發(fā)布 機器之心
        760 0 0

        翼支付全新「增強半自回歸投機解碼框架」。

        AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3

        原標題:AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3
        文章來源:機器之心
        內(nèi)容字數(shù):6782字

        中國電信翼支付AAAI 2025論文:Falcon大模型推理加速框架

        本文總結(jié)了中國電信翼支付發(fā)表在AAAI 2025上的論文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心內(nèi)容。該論文提出了一種名為Falcon的增強型半自回歸投機解碼框架,顯著提升了大型語言模型(LLMs)的推理速度。

        1. 研究背景:LLMs推理速度瓶頸

        大型語言模型在各種任務(wù)中表現(xiàn)出色,但其自回歸(AR)解碼方式導致推理速度慢、計算開銷大。投機解碼(Speculative Decoding)方法應(yīng)運而生,它使用輕量級的Draft Model預先生成候選Token,再由原始LLM進行驗證,從而實現(xiàn)并行解碼,提升效率。然而,現(xiàn)有的AR和SAR Draft策略都存在不足:AR Draft并行性差,SAR Draft的Token接受率低。

        2. Falcon框架:增強半自回歸投機解碼

        為了解決上述問題,翼支付提出了Falcon框架。它包含三個主要組件:Embedding Layer、LM-Head和半自回歸解碼Head。Falcon的核心在于:

        1. Coupled Sequential Glancing Distillation (CSGD): 通過將真實Token和隱藏狀態(tài)重新注入解碼過程,提高SAR Draft Model的Token接受率,增強了對Token間關(guān)系的理解。
        2. Custom-Designed Decoding Tree (CDT): 允許Draft Model一次前向傳播生成多個Token,并支持多次前向傳播,有效提升了LLM對Token的接受率,加快了推理速度。它采用了一種特殊的因果掩碼,允許模型訪問同一block內(nèi)的Token及之前的連續(xù)Token。

        Falcon的架構(gòu)圖清晰地展示了這三個組件的交互方式以及CSGD和CDT方法在其中的作用。

        3. 實驗結(jié)果:顯著的加速效果

        實驗結(jié)果表明,F(xiàn)alcon在多個數(shù)據(jù)集和模型上都取得了優(yōu)異的性能,實現(xiàn)了約2.91-3.51倍的加速比,將推理成本降低到約原來的三分之一。

        4. 業(yè)務(wù)應(yīng)用:落地翼支付多個業(yè)務(wù)

        Falcon技術(shù)已應(yīng)用于翼支付的大模型產(chǎn)品InsightAI平臺,并服務(wù)于數(shù)字人客服、借錢-翼小橙、人力-翼點通、財務(wù)-翼小財?shù)榷鄠€業(yè)務(wù)。

        5. 總結(jié):突破LLMs推理瓶頸

        Falcon框架通過CSGD和CDT的巧妙結(jié)合,有效解決了LLMs推理速度瓶頸問題。它在提升Draft Model準確率、采樣效率和LLM驗證效率方面取得了顯著進展,為大模型的實際應(yīng)用提供了強有力的支撐。


        聯(lián)系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国语精品自产拍在线观看| 亚洲另类春色国产精品| 国产成人精品无码免费看 | 亚洲精品久久久www| 男女午夜24式免费视频| 亚洲精品伊人久久久久| 亚洲伊人久久综合中文成人网| 免费国产黄网站在线观看可以下载 | 国产亚洲精品资在线| 思思re热免费精品视频66| 污污视频免费观看网站| 内射干少妇亚洲69XXX| 国产一区二区视频免费| 最刺激黄a大片免费网站| 无遮挡呻吟娇喘视频免费播放| 亚洲今日精彩视频| 亚洲av成人一区二区三区在线观看| 69视频在线观看高清免费| 黄色三级三级三级免费看| 亚洲一级毛片在线观| 国产AV无码专区亚洲精品| 国产免费观看a大片的网站| 在线观看的免费网站无遮挡| 全部在线播放免费毛片| 亚洲欧洲日韩极速播放| 久久亚洲AV成人无码国产| 亚洲福利视频一区二区| 成年大片免费视频| 特级精品毛片免费观看| 免费VA在线观看无码| 亚洲欧美黑人猛交群| 亚洲国产成人精品无码一区二区| 亚洲色婷婷一区二区三区| 无码国产亚洲日韩国精品视频一区二区三区| 2021国内精品久久久久精免费| 一本到卡二卡三卡免费高| 色屁屁在线观看视频免费| 亚洲精品乱码久久久久蜜桃| 亚洲国产精品乱码在线观看97| 亚洲AV无码不卡在线播放| 亚洲熟妇无码八AV在线播放|