AIGC動態歡迎閱讀
原標題:next-token被淘汰!Meta實測「多token」訓練方法,推理提速3倍,性能大漲10%+
關鍵字:模型,研究人員,任務,性能,方法
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】研究人員提出了一種新的大型語言模型訓練方法,通過一次性預測多個未來tokens來提高樣本效率和模型性能,在代碼和自然語言生成任務上均表現出顯著優勢,且不會增加訓練時間,推理速度還能提升至三倍。當前,大型語言模型,例如GPT和Llama,主要是根據「前文的單詞序列」對「下一個token」進行預測的方式來訓練。
但你有沒有想過一個問題,為什么不對后文的tokens同時進行預測呢?
最近,Meta、巴黎高科路橋大學、巴黎薩克雷大學的研究人員就聯合提出了一種新的訓練方法,即一次性預測多個未來tokens,可以提高模型的樣本效率。論文鏈接:https://arxiv.org/pdf/2404.19737
具體來說,在訓練語料庫的每一個位置,要求模型使用n個的輸出頭網絡來預測緊隨其后的n個token,其中所有輸出頭都基于同一個模型主干。
研究人員將多token預測視作是一種輔助訓練任務,實驗發現該方法不僅能夠提升模型在各種下游任務上的表現,而且不會增加訓練時間,對代碼生成和自然語言生成任務都是有益的。
隨著模型尺寸的增大,該方法的優勢變得更加明顯,尤其是
原文鏈接:next-token被淘汰!Meta實測「多token」訓練方法,推理提速3倍,性能大漲10%+
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...