從小白到高手:我的VLLM遷移SGLang之旅與收獲揭秘
vllm 遷移到 SGLang 的工作體驗(yàn)~
原標(biāo)題:小白視角:vllm 遷移到 SGLang 的體驗(yàn)與收獲
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):11179字
2024中國生成式AI大會(上海站)預(yù)告
根據(jù)大會預(yù)告,2024中國生成式AI大會(上海站)將于12月5日至6日舉行。此次大會由智猩猩共同主辦,屆時(shí)將匯聚眾多行業(yè)專家和學(xué)者,共同探討生成式AI的最新發(fā)展與應(yīng)用。北大(臨港)大模型對齊中心執(zhí)行主任徐驊,騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢,以及其他30多位嘉賓已確認(rèn)參會并進(jìn)行演講。歡迎感興趣的朋友報(bào)名參加。
新技術(shù)遷移體驗(yàn)
在本周,我完成了將vllm遷移到SGLang的工作。這一過程相對簡單,主要是將原有的vllm服務(wù)指令替換為SGLang的指令。在這個(gè)過程中,我學(xué)習(xí)到了許多現(xiàn)代的服務(wù)特性,盡管我仍是小白,希望能在評論區(qū)得到大家的指正。
為何選擇SGLang
SGLang在吞吐能力上表現(xiàn)優(yōu)于vllm,并且支持更多前端功能,如生成結(jié)構(gòu)化生成語言(Structured Generation Language)。最近我在進(jìn)行一些Agent項(xiàng)目時(shí),發(fā)現(xiàn)這個(gè)特性潛力巨大。
遷移過程中的指令對比
原本的vllm指令相對簡單,而遷移到SGLang后,參數(shù)大致相近,部分參數(shù)有所不同。例如,SGLang中新增的enable-p2p-check參數(shù)用于測試GPU間的直接通訊,而chunked-prefill-size則允許更靈活的長序列輸入處理。
性能監(jiān)測與調(diào)優(yōu)
在SGLang的服務(wù)日志中,觀察到了一些重要的性能指標(biāo),包括緩存命中率和請求隊(duì)列狀態(tài)。高的緩存命中率有助于提升整體效率,而請求隊(duì)列的狀態(tài)則能反映系統(tǒng)的負(fù)載能力。
加速效果顯著
通過將vllm替換為SGLang,我的處理效率提升了近10倍。這一結(jié)果雖然是基于個(gè)人的經(jīng)驗(yàn),但顯著反映了新框架在推理效率上的優(yōu)勢。
總結(jié)
總的來說,2024中國生成式AI大會和SGLang的遷移工作都展示了生成式AI領(lǐng)域的快速發(fā)展與技術(shù)進(jìn)步。希望未來能有更多的交流與合作,推動整個(gè)行業(yè)的前進(jìn)。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號之一,聚焦大模型開啟的通用人工智能浪潮。
相關(guān)文章
