GPT-4可能也在用的推測解碼是什么？一文綜述前世今生和應(yīng)用情況

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：GPT-4可能也在用的推測解碼是什么？一文綜述前世今生和應(yīng)用情況
關(guān)鍵字：模型,報告,算法,語言,目標(biāo)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5496字

內(nèi)容摘要：

機(jī)器之心報道
機(jī)器之心編輯部推測解碼（Speculative Decoding）是谷歌等機(jī)構(gòu)在 2022 年發(fā)現(xiàn)的大模型推理加速方法。它可以在不損失生成效果前提下，獲得 3 倍以上的加速比。GPT-4 泄密報告也提到 OpenAI 線上模型推理使用了它。針對如此妙的方法，香港理工大學(xué)、北京大學(xué)、MSRA 以及阿里共同推出了一篇關(guān)于推測解碼的綜述，幫助讀者了解推測解碼的前世今生和應(yīng)用情況，值得一讀。眾所周知，大型語言模型（LLM）的推理通常需要使用自回歸采樣，這個推理過程相當(dāng)緩慢。為了解決這個問題，推測解碼（Speculative Decoding）已經(jīng)成為 LLM 推理的一種新型采樣方法。這種方法在每個采樣步驟中，會先預(yù)測幾個可能的 token，然后并行地驗證是否準(zhǔn)確。與自回歸解碼不同，推測解碼能夠單步解碼多個 token，從而加速推理。
雖然推測解碼可以大有作為，但也引出了一些需要進(jìn)一步調(diào)研的關(guān)鍵問題。首先需要考慮如何選擇或設(shè)計近似模型，以在推測準(zhǔn)確性和生成效率之間取得平衡。其次，有必要考慮評估標(biāo)準(zhǔn)是否能夠保持生成多樣性和輸出質(zhì)量。最后，應(yīng)仔細(xì)考慮對齊近似模型和目標(biāo)大模型之間的推理

原文鏈接：GPT-4可能也在用的推測解碼是什么？一文綜述前世今生和應(yīng)用情況