next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

AIGC動態歡迎閱讀

原標題：next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+
關鍵字：模型,研究人員,任務,性能,方法
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】研究人員提出了一種新的大型語言模型訓練方法，通過一次性預測多個未來tokens來提高樣本效率和模型性能，在代碼和自然語言生成任務上均表現出顯著優勢，且不會增加訓練時間，推理速度還能提升至三倍。當前，大型語言模型，例如GPT和Llama，主要是根據「前文的單詞序列」對「下一個token」進行預測的方式來訓練。
但你有沒有想過一個問題，為什么不對后文的tokens同時進行預測呢？
最近，Meta、巴黎高科路橋大學、巴黎薩克雷大學的研究人員就聯合提出了一種新的訓練方法，即一次性預測多個未來tokens，可以提高模型的樣本效率。論文鏈接：https://arxiv.org/pdf/2404.19737
具體來說，在訓練語料庫的每一個位置，要求模型使用n個的輸出頭網絡來預測緊隨其后的n個token，其中所有輸出頭都基于同一個模型主干。
研究人員將多token預測視作是一種輔助訓練任務，實驗發現該方法不僅能夠提升模型在各種下游任務上的表現，而且不會增加訓練時間，對代碼生成和自然語言生成任務都是有益的。
隨著模型尺寸的增大，該方法的優勢變得更加明顯，尤其是

原文鏈接：next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+