AIGC動態歡迎閱讀
原標題:最火AI角色扮演流量已達谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優化秘訣
關鍵字:緩存,注意力,全局,顯存,團隊
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI什么AI應用每秒處理20000個AI推理請求,達到2024年谷歌搜索流量的1/5?
答案是獨角獸Character.ai,由Transformer作者Noam Shazeer(后面簡稱沙哥)創辦。
剛剛,沙哥公布了推理優化獨門秘訣,迅速引起業界熱議。
具體來說Character.ai在整個服務堆棧中實現了如下成績:
內存高效架構設計:將KV緩存大小減少20倍以上,而不會降低質量
Attention狀態緩存:95%請求無需重算
直接用in8精度量化訓練:推理零損失還省顯存
Character.AI通過以上種種優化,已經把推理成本降低到最初的1/33,如果用市場上最好的商業API來支撐這種級別的流量,成本會比現在高出13.5倍!
眾多公布的方法中,原生int8訓練是最受關注的。
雖然大多數技巧都來自公開研究,但是正如網友所說,知道如何把它們高效整合在一起實現的團隊才是真正的護城河。
秘訣1:高效利用顯存,attention 參數量降低20倍大模型的一大痛點是顯存占用高,導致無法支持大批量推理。Attention 層中的 Key-Value(
原文鏈接:最火AI角色扮演流量已達谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優化秘訣
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...