標簽：緩存

月之暗面kimi底層推理系統方案揭秘

7月2日晚七點，「NVIDIA 機器人技術公開課」正式開講，NVIDIA解決方案架構總監舒家明將以《NVIDIA Isaac 加速機器人3D視覺感知與機械臂軌跡規劃》為主題進行...

閱讀原文

AIGC動態

1年前 (2024)

最火AI角色扮演流量已達谷歌搜索20%！每秒處理2萬推理請求，Transformer作者公開優化秘訣

夢晨發自凹非寺量子位 | 公眾號 QbitAI什么AI應用每秒處理20000個AI推理請求，達到2024年谷歌搜索流量的1/5？答案是獨角獸Character.ai，由Transformer作...

閱讀原文

AIGC動態

1年前 (2024)

2.5%KV緩存保持大模型90%性能，大模型金字塔式信息匯聚模式探秘｜開源

蔡澤凡投稿量子位 | 公眾號 QbitAI用KV緩存加速大模型的顯存瓶頸，終于迎來突破。北大、威斯康辛-麥迪遜、微軟等聯合團隊提出了全新的緩存分配方案，只用2....

閱讀原文

AIGC動態

1年前 (2024)

Transformer本可以深謀遠慮，但就是不做

機器之心報道機器之心編輯部語言模型是否會規劃未來 token？這篇論文給你答案。「別讓 Yann LeCun 看見了。」Yann LeCun 表示太遲了，他已經看到了。今天要...

閱讀原文

AIGC動態

2年前 (2024)

關于 RAG、AI Agent、多模態，我們的理解與探索

嘉賓 | 王元編輯 | 李忠良引言：在這個快速發展的數字時代，生成式 AI 不僅僅是一個概念，而是正在被塑造成為未來技術生態系統的核心。隨著 LLM 的崛起，我們...

閱讀原文

AIGC動態

2年前 (2024)

加速知識檢索：伯克利&DeepMind聯合研究，RaLMSpec讓語言模型服務飛速提升2-7倍！

夕小瑤科技說原創作者 | 智商掉了一地、賣萌醬近年來，隨著大型語言模型（LLM）的出現，在多樣化的 NLP 任務上取得了令人矚目的成果。然而，知識密集型任務...

閱讀原文

AIGC動態

2年前 (2024)

吞吐量提升5倍，聯合設計后端系統和前端語言的LLM接口來了

機器之心報道機器之心編輯部大型語言模型 (LLM) 越來越多地用于需要多個鏈式生成調用、高級 prompt 技術、控制流以及與外部環境交互的復雜任務。然而，用于...

閱讀原文

AIGC動態

2年前 (2024)

今日Arxiv最熱NLP大模型論文：清華大學讓大語言模型自動并行自回歸解碼，速度提升高達4倍！

夕小瑤科技說原創作者 | 賽博馬良本文內容由賽博馬良「AI論文解讀達人」智能體生成，人工整理排版。「AI論文解讀達人」可提供最熱AI論文推薦、論文解讀...

閱讀原文

AIGC動態

2年前 (2024)

吞吐量提升近30倍！田淵棟團隊最新論文解決大模型部署難題

新智元報道編輯：alan【新智元導讀】大語言模型在實際部署中，存在內存和輸入長度限制的問題。最近，田淵棟團隊一舉解決這兩大難題，將推理系統的吞吐量提高...

閱讀原文

AIGC動態

2年前 (2023)

不到1000行代碼，PyTorch團隊讓Llama 7B提速10倍

機器之心報道編輯：陳萍PyTorch 團隊親自教你如何加速大模型推理。在過去的一年里，生成式 AI 發展迅猛，在這當中，文本生成一直是一個特別受歡迎的領域，很...

閱讀原文

AIGC動態

2年前 (2023)

OpenAI大佬甩出「喵喵GPT」黑客！分享ChatGPT成功的秘密：極限壓榨GPU資源

新智元報道編輯：潤【新智元導讀】OpenAI的工程團隊經理（Engineering Manager）Evan Morikawa在一個開發者活動中分享了如何帶領OpenAI的工程團隊來應對ChatG...

閱讀原文

AIGC動態

2年前 (2023)

GPT-4變笨加劇，被曝緩存歷史回復：一個笑話講八百遍，讓換新的也不聽

豐色發自凹非寺量子位 | 公眾號 QbitAI有網友找到了GPT-4變“笨”的又一證據。他質疑：OpenAI會緩存歷史回復，讓GPT-4直接復述以前生成過的答案。最明顯的例...

閱讀原文

AIGC動態

2年前 (2023)

LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等開源高效內存管理機制PagedAttention

新智元報道編輯：LRS【新智元導讀】吞吐量上不去有可能是內存背鍋！無需修改模型架構，減少內存浪費就能提高吞吐量！?雖然大型語言模型（LLM）的性能表現足夠...

閱讀原文

AIGC動態

2年前 (2023)

6.7k Star量的vLLM出論文了，讓每個人都能輕松快速低成本地部署LLM服務

機器之心專欄編輯：Panda利用操作系統的虛擬內存管理方法來提升LLM推理吞吐量。今年六月，來自加州大學伯克利分校等機構的一個研究團隊開源了（目前已有 6700...

閱讀原文

AIGC動態

2年前 (2023)

RTX 5090最新爆料：架構大改，性能提升70%

機器之心報道編輯：小舟關于英偉達下一代旗艦 GPU RTX5090，人們一直抱有期待和猜測。早在 2021 年，知名爆料者 kopite7kimi 就稱英偉達將推出代號為「Blackw...

閱讀原文

AIGC動態

2年前 (2023)