LLM生成延遲降低50%!DeepSpeed團(tuán)隊發(fā)布FastGen:動態(tài)SplitFuse技術(shù),提升2.3倍有效吞吐量
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLM生成延遲降低50%!DeepSpeed團(tuán)隊發(fā)布FastGen:動態(tài)SplitFuse技術(shù),提升2.3倍有效吞吐量
關(guān)鍵字:吞吐量,提示,模型,系統(tǒng),知乎
文章來源:新智元
內(nèi)容字?jǐn)?shù):23009字
內(nèi)容摘要:新智元報道編輯:LRS【新智元導(dǎo)讀】DeepSpeed-FastGen結(jié)合MII和DeepSpeed-Inference實現(xiàn)LLM高吞吐量文本生成。GPT-4和LLaMA這樣的大型語言模型(LLMs)已在各個層次上成為了集成AI 的主流服務(wù)應(yīng)用。從常規(guī)模型到文檔摘要,從自動駕駛到各個軟件中的Copilot功能,這些模型的部署和服務(wù)需求正在迅速增加。像DeepSpeed、PyTorch和其他幾個框架可以在LLM訓(xùn)練期間實現(xiàn)良好的硬件利用率,但它們在與用戶互動及處理開放式文本生成等任務(wù)時,受限于這些操作的計算密集度相對較低,現(xiàn)有系統(tǒng)往往在推理吞吐量上遇到瓶頸。為了解決這一問題,使用類似vLLM這樣由PagedAttention驅(qū)動的框架或是Orca系統(tǒng)可以顯著提高LLM推理的性能。然而,這些系統(tǒng)在面對長提示的工作負(fù)載時,依舊難以提供良好的服務(wù)質(zhì)量。隨著越來越多的模型(例如MPT-Story…
原文鏈接:點此閱讀原文:LLM生成延遲降低50%!DeepSpeed團(tuán)隊發(fā)布FastGen:動態(tài)SplitFuse技術(shù),提升2.3倍有效吞吐量
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。