AIGC動態歡迎閱讀
原標題:吞吐量提升5倍,聯合設計后端系統和前端語言的LLM接口來了
關鍵字:緩存,報告,張量,系統,基數
文章來源:機器之心
內容字數:5919字
內容摘要:
機器之心報道
機器之心編輯部大型語言模型 (LLM) 越來越多地用于需要多個鏈式生成調用、高級 prompt 技術、控制流以及與外部環境交互的復雜任務。然而,用于編程和執行這些應用程序的現有高效系統存在著明顯的缺陷。
現在,開源社區的研究者們面向 LLM 提出了一種結構化生成語言(Structured Generation Language)——SGLang。SGLang 能夠增強與 LLM 的交互,通過聯合設計后端運行時系統和前端語言,使 LLM 更快、更可控。機器學習領域知名學者、CMU 助理教授陳天奇還轉發了這項研究。總的來說,SGLang 的貢獻主要包括:
在后端,研究團隊提出了 RadixAttention,這是一種跨多個 LLM 生成調用的 KV 緩存(KV cache)復用技術,自動且高效。
在前端,研究團隊開發了一種嵌入 Python 的、靈活的域指定(domain-specific)語言來控制生成過程。該語言可以在解釋器模式或編譯器模式下執行。
后端前端組件協同工作,可提高復雜 LLM 程序的執行和編程效率。
該研究使用 SGLang 實現了常見的 LLM 工作負載,
原文鏈接:吞吐量提升5倍,聯合設計后端系統和前端語言的LLM接口來了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...