AIGC動態歡迎閱讀
原標題:蘋果讓大模型學會偷懶:更快吐出第一個token,準確度還保住了
關鍵字:緩存,模型,階段,步驟,準確度
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部偷懶才能更好地工作。Llama 3.1 剛剛發布,你是否已經嘗試了呢?就算你的個人計算機是最近的頂尖配置,運行其中最小的 8B 版本可能也依然會有明顯延遲。為了提升模型的推理效率,研究者想出了多種多樣的方法,但其中很多都會讓模型犧牲一些準確度。
近日,蘋果和 Meta AI 的一個研究團隊提出了一種新方法,可在保證準確度不明顯下降的同時,將 Llama 2 預填充階段的推理速度提升到原來的 2 倍以上,這或許能為 Llama 3.1 的加速提供一些啟發。他們把這種方法稱為 LazyLLM,即懶惰大型語言模型。論文標題:LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
論文地址:https://arxiv.org/abs/2407.14057
那么他們是怎么讓 LLM 偷懶的呢?要理解他們的方法,我們首先需要知道標準的基于 prompt 的 LLM 推理過程是怎樣的。簡單來說,該過程分為兩個階段:預填充和解碼,如圖 1 所示。在預填充階段,模型計算和保存 prompt
原文鏈接:蘋果讓大模型學會偷懶:更快吐出第一個token,準確度還保住了
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...