vllm 遷移到 SGLang 的工作體驗~

原標題:小白視角:vllm 遷移到 SGLang 的體驗與收獲
文章來源:智猩猩GenAI
內容字數:11179字
2024中國生成式AI大會(上海站)預告
根據大會預告,2024中國生成式AI大會(上海站)將于12月5日至6日舉行。此次大會由智猩猩共同主辦,屆時將匯聚眾多行業專家和學者,共同探討生成式AI的最新發展與應用。北大(臨港)大模型對齊中心執行主任徐驊,騰訊優圖實驗室天衍研究中心負責人吳賢,以及其他30多位嘉賓已確認參會并進行演講。歡迎感興趣的朋友報名參加。
新技術遷移體驗
在本周,我完成了將vllm遷移到SGLang的工作。這一過程相對簡單,主要是將原有的vllm服務指令替換為SGLang的指令。在這個過程中,我學習到了許多現代的服務特性,盡管我仍是小白,希望能在評論區得到大家的指正。
為何選擇SGLang
SGLang在吞吐能力上表現優于vllm,并且支持更多前端功能,如生成結構化生成語言(Structured Generation Language)。最近我在進行一些Agent項目時,發現這個特性潛力巨大。
遷移過程中的指令對比
原本的vllm指令相對簡單,而遷移到SGLang后,參數大致相近,部分參數有所不同。例如,SGLang中新增的enable-p2p-check參數用于測試GPU間的直接通訊,而chunked-prefill-size則允許更靈活的長序列輸入處理。
性能監測與調優
在SGLang的服務日志中,觀察到了一些重要的性能指標,包括緩存命中率和請求隊列狀態。高的緩存命中率有助于提升整體效率,而請求隊列的狀態則能反映系統的負載能力。
加速效果顯著
通過將vllm替換為SGLang,我的處理效率提升了近10倍。這一結果雖然是基于個人的經驗,但顯著反映了新框架在推理效率上的優勢。
總結
總的來說,2024中國生成式AI大會和SGLang的遷移工作都展示了生成式AI領域的快速發展與技術進步。希望未來能有更多的交流與合作,推動整個行業的前進。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。

粵公網安備 44011502001135號