吞吐量提升5倍,聯(lián)合設計后端系統(tǒng)和前端語言的LLM接口來了

AIGC動態(tài)歡迎閱讀
原標題:吞吐量提升5倍,聯(lián)合設計后端系統(tǒng)和前端語言的LLM接口來了
關(guān)鍵字:緩存,報告,張量,系統(tǒng),基數(shù)
文章來源:機器之心
內(nèi)容字數(shù):5919字
內(nèi)容摘要:
機器之心報道
機器之心編輯部大型語言模型 (LLM) 越來越多地用于需要多個鏈式生成調(diào)用、高級 prompt 技術(shù)、控制流以及與外部環(huán)境交互的復雜任務。然而,用于編程和執(zhí)行這些應用程序的現(xiàn)有高效系統(tǒng)存在著明顯的缺陷。
現(xiàn)在,開源社區(qū)的研究者們面向 LLM 提出了一種結(jié)構(gòu)化生成語言(Structured Generation Language)——SGLang。SGLang 能夠增強與 LLM 的交互,通過聯(lián)合設計后端運行時系統(tǒng)和前端語言,使 LLM 更快、更可控。機器學習領(lǐng)域知名學者、CMU 助理教授陳天奇還轉(zhuǎn)發(fā)了這項研究。總的來說,SGLang 的貢獻主要包括:
在后端,研究團隊提出了 RadixAttention,這是一種跨多個 LLM 生成調(diào)用的 KV 緩存(KV cache)復用技術(shù),自動且高效。
在前端,研究團隊開發(fā)了一種嵌入 Python 的、靈活的域指定(domain-specific)語言來控制生成過程。該語言可以在解釋器模式或編譯器模式下執(zhí)行。
后端前端組件協(xié)同工作,可提高復雜 LLM 程序的執(zhí)行和編程效率。
該研究使用 SGLang 實現(xiàn)了常見的 LLM 工作負載,
原文鏈接:吞吐量提升5倍,聯(lián)合設計后端系統(tǒng)和前端語言的LLM接口來了
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號