現在,大語言模型的結構化生成有了一個更加高效、靈活的引擎。
原標題:陳天奇團隊LLM結構化生成新引擎XGrammar:百倍加速、近零開銷
文章來源:智猩猩GenAI
內容字數:8316字
2024中國生成式AI大會(上海站)預告
2024中國生成式AI大會將于12月5-6日在上海舉行,主會場將舉辦大模型峰會和AI Infra峰會,分會場將進行端側生成式AI、AI視頻生成和具身智能的技術研討會,歡迎報名參加。
新型結構化生成引擎:XGrammar
針對目前大語言模型(LLM)在結構化生成上的效率問題,陳天奇團隊提出了XGrammar,一個高效、靈活且可移植的結構化生成引擎。XGrammar的目標是實現靈活、零開銷的結構化生成,支持多種格式如JSON和SQL。
約束解碼的挑戰
傳統的約束解碼方法使用上下文無關語法(CFG)來過濾無效token,但效率不高。XGrammar通過字節級下推自動機(PDA)和自適應token掩碼緩存顯著提升了性能,能夠將每個token的延遲降低100倍,并實現端到端LLM服務的速度提升80倍。
XGrammar的實現與優化
XGrammar利用預處理階段生成的自適應token掩碼緩存,加速運行時的掩碼生成。此外,通過上下文擴展和持續性執行堆棧等技術,進一步提升了效率。研究者還進行了多項結構優化,如規則內聯和下推自動機節點合并,以減少計算量。
評估結果與跨平臺部署
在評估中,XGrammar在JSON模式下實現了3倍的加速,復雜語法下的加速更是超過100倍。XGrammar還被成功編譯為WebAssembly,支持在多種平臺上進行高性能的結構化生成,顯示出了其廣泛的應用潛力。
總結
XGrammar的提出為大語言模型的結構化生成提供了新思路,通過多種優化顯著提高了效率,展現了在生成式AI領域的重要應用價值。歡迎關注即將舉辦的2024中國生成式AI大會,共同探索更多前沿技術。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。