顛覆性創新：XGrammar引擎助力LLM生成速度提升百倍，開銷幾近為零！

現在，大語言模型的結構化生成有了一個更加高效、靈活的引擎。

原標題：陳天奇團隊LLM結構化生成新引擎XGrammar：百倍加速、近零開銷
文章來源：智猩猩GenAI
內容字數：8316字

2024中國生成式AI大會將于12月5-6日在上海舉行，主會場將舉辦大模型峰會和AI Infra峰會，分會場將進行端側生成式AI、AI視頻生成和具身智能的技術研討會，歡迎報名參加。

針對目前大語言模型（LLM）在結構化生成上的效率問題，陳天奇團隊提出了XGrammar，一個高效、靈活且可移植的結構化生成引擎。XGrammar的目標是實現靈活、零開銷的結構化生成，支持多種格式如JSON和SQL。

傳統的約束解碼方法使用上下文無關語法（CFG）來過濾無效token，但效率不高。XGrammar通過字節級下推自動機（PDA）和自適應token掩碼緩存顯著提升了性能，能夠將每個token的延遲降低100倍，并實現端到端LLM服務的速度提升80倍。

XGrammar利用預處理階段生成的自適應token掩碼緩存，加速運行時的掩碼生成。此外，通過上下文擴展和持續性執行堆棧等技術，進一步提升了效率。研究者還進行了多項結構優化，如規則內聯和下推自動機節點合并，以減少計算量。

在評估中，XGrammar在JSON模式下實現了3倍的加速，復雜語法下的加速更是超過100倍。XGrammar還被成功編譯為WebAssembly，支持在多種平臺上進行高性能的結構化生成，顯示出了其廣泛的應用潛力。

XGrammar的提出為大語言模型的結構化生成提供了新思路，通過多種優化顯著提高了效率，展現了在生成式AI領域的重要應用價值。歡迎關注即將舉辦的2024中國生成式AI大會，共同探索更多前沿技術。

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...