AIGC動態歡迎閱讀
原標題:一次預測多個token,Meta新模型推理加速3倍,編程任務提高17%
關鍵字:模型,團隊,任務,自然語言,字節
文章來源:量子位
內容字數:2772字
內容摘要:
夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI“預測下一個token”被認為是大模型的基本范式,一次預測多個tokens又會怎樣?
Meta AI法國團隊推出“基于多token預測的更快&更好大模型”。
多token預測模型,在編程類任務上表現尤其突出。
與單token預測相比,13B參數模型在HumanEval上多解決了12%的問題,在MBPP上多解決了17%。
小型算法推理任務上,多token預測也在分布外泛化方面帶來了令人印象深刻的收益。
不過在自然語言任務上,多token預測方法并不能顯著提高7B模型在數學選擇題上的表現了。
另外一個好處是,即使batch size較大,使用4-token預測訓練的模型,推理速度也可提高3倍。
多token預測更適合編程具體來說,團隊設計了一種新的多token預測架構,通過n個的輸出頭并行預測n個未來token。
使用大量文本數據進行模型訓練,包括代碼和自然語言數據集。
再通過實驗比較多token預測和單token預測在多個下游任務上的性能。
為啥多token預測在編程任務和小型算法推理任務上提升更明顯?
團隊猜測可能有兩個原因:
原文鏈接:一次預測多個token,Meta新模型推理加速3倍,編程任務提高17%
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...