標簽:緩存

月之暗面kimi底層推理系統方案揭秘

7月2日晚七點,「NVIDIA 機器人技術公開課」正式開講,NVIDIA解決方案架構總監舒家明將以《NVIDIA Isaac 加速機器人3D視覺感知與機械臂軌跡規劃》為主題進行...
閱讀原文

最火AI角色扮演流量已達谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優化秘訣

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI什么AI應用每秒處理20000個AI推理請求,達到2024年谷歌搜索流量的1/5? 答案是獨角獸Character.ai,由Transformer作...
閱讀原文

2.5%KV緩存保持大模型90%性能,大模型金字塔式信息匯聚模式探秘|開源

蔡澤凡 投稿量子位 | 公眾號 QbitAI用KV緩存加速大模型的顯存瓶頸,終于迎來突破。 北大、威斯康辛-麥迪遜、微軟等聯合團隊提出了全新的緩存分配方案,只用2....
閱讀原文

Transformer本可以深謀遠慮,但就是不做

機器之心報道 機器之心編輯部語言模型是否會規劃未來 token?這篇論文給你答案。 「別讓 Yann LeCun 看見了。」Yann LeCun 表示太遲了,他已經看到了。今天要...
閱讀原文

關于 RAG、AI Agent、多模態,我們的理解與探索

嘉賓 | 王元編輯 | 李忠良引言:在這個快速發展的數字時代,生成式 AI 不僅僅是一個概念,而是正在被塑造成為未來技術生態系統的核心。隨著 LLM 的崛起,我們...
閱讀原文

加速知識檢索:伯克利&DeepMind聯合研究,RaLMSpec讓語言模型服務飛速提升2-7倍!

夕小瑤科技說 原創作者 | 智商掉了一地、賣萌醬近年來,隨著大型語言模型(LLM)的出現,在多樣化的 NLP 任務上取得了令人矚目的成果。然而,知識密集型任務...
閱讀原文

吞吐量提升5倍,聯合設計后端系統和前端語言的LLM接口來了

機器之心報道 機器之心編輯部大型語言模型 (LLM) 越來越多地用于需要多個鏈式生成調用、高級 prompt 技術、控制流以及與外部環境交互的復雜任務。然而,用于...
閱讀原文

今日Arxiv最熱NLP大模型論文:清華大學讓大語言模型自動并行自回歸解碼,速度提升高達4倍!

夕小瑤科技說 原創作者 | 賽博馬良 本文內容由 賽博馬良「AI論文解讀達人」 智能體生成,人工整理排版。 「AI論文解讀達人」 可提供最熱AI論文推薦、論文解讀...
閱讀原文

吞吐量提升近30倍!田淵棟團隊最新論文解決大模型部署難題

新智元報道編輯:alan【新智元導讀】大語言模型在實際部署中,存在內存和輸入長度限制的問題。最近,田淵棟團隊一舉解決這兩大難題,將推理系統的吞吐量提高...
閱讀原文

不到1000行代碼,PyTorch團隊讓Llama 7B提速10倍

機器之心報道編輯:陳萍PyTorch 團隊親自教你如何加速大模型推理。在過去的一年里,生成式 AI 發展迅猛,在這當中,文本生成一直是一個特別受歡迎的領域,很...
閱讀原文

OpenAI大佬甩出「喵喵GPT」黑客!分享ChatGPT成功的秘密:極限壓榨GPU資源

新智元報道編輯:潤【新智元導讀】OpenAI的工程團隊經理(Engineering Manager)Evan Morikawa在一個開發者活動中分享了如何帶領OpenAI的工程團隊來應對ChatG...
閱讀原文

GPT-4變笨加劇,被曝緩存歷史回復:一個笑話講八百遍,讓換新的也不聽

豐色 發自 凹非寺量子位 | 公眾號 QbitAI有網友找到了GPT-4變“笨”的又一證據。他質疑:OpenAI會緩存歷史回復,讓GPT-4直接復述以前生成過的答案。最明顯的例...
閱讀原文

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等開源高效內存管理機制PagedAttention

新智元報道編輯:LRS【新智元導讀】吞吐量上不去有可能是內存背鍋!無需修改模型架構,減少內存浪費就能提高吞吐量!?雖然大型語言模型(LLM)的性能表現足夠...
閱讀原文

6.7k Star量的vLLM出論文了,讓每個人都能輕松快速低成本地部署LLM服務

機器之心專欄編輯:Panda利用操作系統的虛擬內存管理方法來提升LLM推理吞吐量。今年六月,來自加州大學伯克利分校等機構的一個研究團隊開源了(目前已有 6700...
閱讀原文

RTX 5090最新爆料:架構大改,性能提升70%

機器之心報道編輯:小舟關于英偉達下一代旗艦 GPU RTX5090,人們一直抱有期待和猜測。早在 2021 年,知名爆料者 kopite7kimi 就稱英偉達將推出代號為「Blackw...
閱讀原文
12