一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%
關鍵字：模型,團隊,任務,自然語言,字節
文章來源：量子位
內容字數：2772字

內容摘要：

夢晨西風發自凹非寺量子位 | 公眾號 QbitAI“預測下一個token”被認為是大模型的基本范式，一次預測多個tokens又會怎樣？
Meta AI法國團隊推出“基于多token預測的更快&更好大模型”。
多token預測模型，在編程類任務上表現尤其突出。
與單token預測相比，13B參數模型在HumanEval上多解決了12%的問題，在MBPP上多解決了17%。
小型算法推理任務上，多token預測也在分布外泛化方面帶來了令人印象深刻的收益。
不過在自然語言任務上，多token預測方法并不能顯著提高7B模型在數學選擇題上的表現了。
另外一個好處是，即使batch size較大，使用4-token預測訓練的模型，推理速度也可提高3倍。
多token預測更適合編程具體來說，團隊設計了一種新的多token預測架構，通過n個的輸出頭并行預測n個未來token。
使用大量文本數據進行模型訓練，包括代碼和自然語言數據集。
再通過實驗比較多token預測和單token預測在多個下游任務上的性能。
為啥多token預測在編程任務和小型算法推理任務上提升更明顯？
團隊猜測可能有兩個原因:

原文鏈接：一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%