Llama2推理RTX3090勝過4090,延遲吞吐量占優(yōu),但被A800遠遠甩開
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Llama2推理RTX3090勝過4090,延遲吞吐量占優(yōu),但被A800遠遠甩開
關(guān)鍵字:吞吐量,性能,報告,大小,時間
文章來源:機器之心
內(nèi)容字數(shù):7304字
內(nèi)容摘要:
機器之心報道
編輯:杜偉、小舟這是為數(shù)不多深入比較使用消費級 GPU(RTX 3090、4090)和服務(wù)器顯卡(A800)進行大模型預(yù)訓(xùn)練、微調(diào)和推理的論文。
大型語言模型 (LLM) 在學(xué)界和業(yè)界都取得了巨大的進展。但訓(xùn)練和部署 LLM 非常昂貴,需要大量的計算資源和內(nèi)存,因此研究人員開發(fā)了許多用于加速 LLM 預(yù)訓(xùn)練、微調(diào)和推理的開源框架和方法。然而,不同硬件和軟件堆棧的運行時性能可能存在很大差異,這使得選擇最佳配置變得困難。最近,一篇題為《Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models》的新論文從宏觀和微觀的角度詳細分析了 LLM 訓(xùn)練、微調(diào)、推理的運行時性能。論文地址:https://arxiv.org/pdf/2311.03687.pdf
具體來說,該研究首先在三個 8-GPU 上對不同規(guī)模(7B、13B 和 70B 參數(shù))的 LLM,面向預(yù)訓(xùn)練、微調(diào)、服務(wù)進行端到端的性能基準(zhǔn)測試,涉及具有或不具有單獨優(yōu)化技術(shù)的平臺,
原文鏈接:Llama2推理RTX3090勝過4090,延遲吞吐量占優(yōu),但被A800遠遠甩開
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺