Scaling Law撞南墻,MIT發(fā)現(xiàn)另一條路:測試時訓(xùn)練,推理能力最高升至5.8倍

AIGC動態(tài)歡迎閱讀
原標(biāo)題:Scaling Law撞南墻,MIT發(fā)現(xiàn)另一條路:測試時訓(xùn)練,推理能力最高升至5.8倍
關(guān)鍵字:測試,模型,任務(wù),樣本,數(shù)據(jù)
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 分享作者 | 量子位o1不是通向大模型推理的唯一路徑!
MIT的新研究發(fā)現(xiàn),在測試時對大模型進(jìn)行訓(xùn)練,可以讓推理水平大幅提升。
在挑戰(zhàn)超難的ARC任務(wù)時,準(zhǔn)確率最高可提升至原來的5.83倍。
這樣的表現(xiàn)不僅優(yōu)于GPT-4和Claude,如果與其他推理方法相結(jié)合,還能超越人類的平均水準(zhǔn)。
OpenAI o1團隊成員Noam Brown表示,o1的大規(guī)模計算可能不是最好的方法,很高興看到有學(xué)者在提高推理能力上探索新的方法。
在測試中訓(xùn)練模型不同于傳統(tǒng)的先訓(xùn)練后測試模式,測試時訓(xùn)練(Test-Time Training,TTT)在部署階段面對新的測試樣本時,不直接用訓(xùn)練好的模型去推理。
在推理之前,測試樣本自身攜帶的信息,會通過快速的訓(xùn)練過程被用于調(diào)整模型參數(shù)。
總體來說,TTT過程中一共有三個關(guān)鍵階段——訓(xùn)練數(shù)據(jù)生成、模型適應(yīng)范式設(shè)計以及推理階段的策略。
數(shù)據(jù)生成的核心是將測試任務(wù)中蘊含的輸入輸出對關(guān)系,通過數(shù)據(jù)增強的方式最大限度地利用,可具體分為兩個步驟。
首先是基于leave-one-out構(gòu)造新的任務(wù)。
對于包含K個輸入輸出對的測試任務(wù),依次將每個樣本留出作為測試樣本,
原文鏈接:Scaling Law撞南墻,MIT發(fā)現(xiàn)另一條路:測試時訓(xùn)練,推理能力最高升至5.8倍
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號