顛覆傳統(tǒng):XGrammar引擎實(shí)現(xiàn)百倍加速與近零開銷的性突破
現(xiàn)在,大語言模型的結(jié)構(gòu)化生成有了一個(gè)更加高效、靈活的引擎。
原標(biāo)題:陳天奇團(tuán)隊(duì)LLM結(jié)構(gòu)化生成新引擎XGrammar:百倍加速、近零開銷
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7954字
1. 引言
隨著大語言模型(LLM)的發(fā)展,結(jié)構(gòu)化生成變得日益重要。陳天奇團(tuán)隊(duì)提出了XGrammar,一個(gè)高效、靈活且可移植的結(jié)構(gòu)化生成引擎,以滿足代碼編寫、外部工具調(diào)用和機(jī)器人控制等多種需求。
2. XGrammar的概述
XGrammar是一個(gè)開源軟件庫,致力于提供靈活的結(jié)構(gòu)化生成解決方案,支持多種格式(如JSON、SQL等)。其核心目標(biāo)是高效地進(jìn)行約束解碼,克服上下文無關(guān)語法(CFG)在傳統(tǒng)應(yīng)用中的效率瓶頸。
3. 約束解碼的挑戰(zhàn)
約束解碼通過過濾無效token來確保生成數(shù)據(jù)符合特定結(jié)構(gòu)。然而,CFG的靈活性使得解碼效率低下,尤其是在處理大詞表時(shí),計(jì)算開銷顯著增加。XGrammar通過改進(jìn)算法和數(shù)據(jù)結(jié)構(gòu),顯著提升了解碼速度。
4. 解決方案
XGrammar采用字節(jié)級下推自動(dòng)機(jī)(PDA)來處理CFG,并引入自適應(yīng)token掩碼緩存,提高了掩碼生成的速度。通過將上下文無關(guān)token與上下文相關(guān)token分離,XGrammar能夠在運(yùn)行時(shí)快速生成大部分掩碼,顯著提升整體性能。
5. 性能評估
在與Llama-3.1模型的評估中,XGrammar在JSON模式下實(shí)現(xiàn)了高達(dá)3倍的加速,并在復(fù)雜的JSON用例中超過100倍的加速。整體運(yùn)行時(shí)間低于40微秒,適用于低延遲LLM推理場景。
6. 端到端LLM引擎
通過將XGrammar集成到端到端LLM推理框架中,研究顯示其在TPOT和TTFT性能方面優(yōu)于其他框架,整體速度提升達(dá)到80倍。有效的掩碼生成與LLM推理的重疊計(jì)算進(jìn)一步降低了延遲。
7. 跨平臺(tái)部署
XGrammar能夠在多種平臺(tái)上運(yùn)行,通過Emscripten編譯為WebAssembly,并與WebLLM框架集成,展示了在移動(dòng)設(shè)備和瀏覽器環(huán)境中的高效表現(xiàn)。
8. 結(jié)論
XGrammar代表了結(jié)構(gòu)化生成技術(shù)的一個(gè)重要進(jìn)展,其高效性和靈活性為未來的應(yīng)用提供了強(qiáng)大的支持,尤其在端側(cè)智能體的發(fā)展中具有廣闊的前景。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)