AIGC動態歡迎閱讀
內容摘要:
7月2日晚七點,「NVIDIA 機器人技術公開課」正式開講,NVIDIA解決方案架構總監舒家明將以《NVIDIA Isaac 加速機器人3D視覺感知與機械臂軌跡規劃》為主題進行直播講解,歡迎掃名。太長不看版(作者大佬自己的在知乎碎碎念):
本論文與很多 Prefill/Decoding 分離的論文不同的是,這套方案已經在大規模集群上進行幾個月的驗證并證明了方案的有效性。目前這套系統承載了 Kimi 線上80% 以上的流量, 效果很好也為產品帶來了更多的設計空間。這也是為什么一個 POC 寫在所有業內論文之前的系統,直到今天才發布出來跟大家見面。
系統是需要跟隨著應用快速變化的,同時也需要 硬件廠商 和 云廠商 早點接受新的理念才能跟上浪潮。發出這篇論文,主要是希望給各方提供一些信心,提供一些推理規模足夠大場景下的必然優化思路。
趁這個機會,希望給各家硬件廠商和云廠商一些“暴論”
1.Mooncake 這類的存算分離策略會是一個長期趨勢。
現在、立刻、馬上真能省很多錢(畢竟不能公開規模和每日請求的 pattern,如果你說省不了那你都對)。
KVCache 的容量會長期保持高位,因此
原文鏈接:月之暗面kimi底層推理系統方案揭秘
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...