顛覆傳統(tǒng)：XGrammar引擎實(shí)現(xiàn)百倍加速與近零開(kāi)銷的性突破

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

現(xiàn)在，大語(yǔ)言模型的結(jié)構(gòu)化生成有了一個(gè)更加高效、靈活的引擎。

顛覆傳統(tǒng)：XGrammar引擎實(shí)現(xiàn)百倍加速與近零開(kāi)銷的革命性突破

原標(biāo)題：陳天奇團(tuán)隊(duì)LLM結(jié)構(gòu)化生成新引擎XGrammar：百倍加速、近零開(kāi)銷
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：7954字

1. 引言

隨著大語(yǔ)言模型（LLM）的發(fā)展，結(jié)構(gòu)化生成變得日益重要。陳天奇團(tuán)隊(duì)提出了XGrammar，一個(gè)高效、靈活且可移植的結(jié)構(gòu)化生成引擎，以滿足代碼編寫、外部工具調(diào)用和機(jī)器人控制等多種需求。

2. XGrammar的概述

XGrammar是一個(gè)開(kāi)源軟件庫(kù)，致力于提供靈活的結(jié)構(gòu)化生成解決方案，支持多種格式（如JSON、SQL等）。其核心目標(biāo)是高效地進(jìn)行約束解碼，克服上下文無(wú)關(guān)語(yǔ)法（CFG）在傳統(tǒng)應(yīng)用中的效率瓶頸。

3. 約束解碼的挑戰(zhàn)

約束解碼通過(guò)過(guò)濾無(wú)效token來(lái)確保生成數(shù)據(jù)符合特定結(jié)構(gòu)。然而，CFG的靈活性使得解碼效率低下，尤其是在處理大詞表時(shí)，計(jì)算開(kāi)銷顯著增加。XGrammar通過(guò)改進(jìn)算法和數(shù)據(jù)結(jié)構(gòu)，顯著提升了解碼速度。

4. 解決方案

XGrammar采用字節(jié)級(jí)下推自動(dòng)機(jī)（PDA）來(lái)處理CFG，并引入自適應(yīng)token掩碼緩存，提高了掩碼生成的速度。通過(guò)將上下文無(wú)關(guān)token與上下文相關(guān)token分離，XGrammar能夠在運(yùn)行時(shí)快速生成大部分掩碼，顯著提升整體性能。

5. 性能評(píng)估

在與Llama-3.1模型的評(píng)估中，XGrammar在JSON模式下實(shí)現(xiàn)了高達(dá)3倍的加速，并在復(fù)雜的JSON用例中超過(guò)100倍的加速。整體運(yùn)行時(shí)間低于40微秒，適用于低延遲LLM推理場(chǎng)景。

6. 端到端LLM引擎

通過(guò)將XGrammar集成到端到端LLM推理框架中，研究顯示其在TPOT和TTFT性能方面優(yōu)于其他框架，整體速度提升達(dá)到80倍。有效的掩碼生成與LLM推理的重疊計(jì)算進(jìn)一步降低了延遲。

7. 跨平臺(tái)部署

XGrammar能夠在多種平臺(tái)上運(yùn)行，通過(guò)Emscripten編譯為WebAssembly，并與WebLLM框架集成，展示了在移動(dòng)設(shè)備和瀏覽器環(huán)境中的高效表現(xiàn)。

8. 結(jié)論

XGrammar代表了結(jié)構(gòu)化生成技術(shù)的一個(gè)重要進(jìn)展，其高效性和靈活性為未來(lái)的應(yīng)用提供了強(qiáng)大的支持，尤其在端側(cè)智能體的發(fā)展中具有廣闊的前景。

聯(lián)系作者

文章來(lái)源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# LLM結(jié)構(gòu)化生成 # XGrammar新引擎 # 人工智能加速 # 近零開(kāi)銷 # 陳天奇團(tuán)隊(duì)

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片