AIGC動態歡迎閱讀
原標題:Mistral AI:探索LLM推理的吞吐、時延及成本空間
關鍵字:模型,內存,大小,硬件,解讀
文章來源:AI前線
內容字數:13803字
內容摘要:
作者 |Timothée Lacroix
OneFlow編譯
翻譯|宛子琳、楊婷
選擇正確的 LLM 推理棧意味著選擇適合你的任務的正確模型,并配以適當的推理代碼在適當的硬件上運行。本文介紹了流行的 LLM 推理堆棧和設置,詳細說明其推理的成本構成;并討論當前的開源模型以及如何充分利用它們,同時還涉及當前開源服務棧中仍然缺失的功能,以及未來模型將解鎖的新功能。本文源自 Mistral AI 首席技術官 Timothée Lacroix 的演講。他于 2015 年在 Facebook AI Research 擔任工程師,于 2016 年至 2019 年間與école des Ponts 合作完成了關于推薦系統的張量分解的論文。2023 年他成為 Mistral AI 的聯合創始人。Mistral AI 于近期發布了業內首個開源 MoE 大模型 Mixtral-8x7B。
本次演講的很多內容都基于我在網上找到的信息或通過對第一個 LLaMA 版本模型進行實驗時的發現。我認為,現在的 Mistral 更關注推理成本,而非訓練成本。因此,我將分享推理成本的構成、吞吐、時延及其影響因素。
很多
原文鏈接:Mistral AI:探索LLM推理的吞吐、時延及成本空間
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享干貨、AI論文解讀。每周一節技術分享公開課,助力你全面擁抱人工智能技術。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...