AIGC動態歡迎閱讀
原標題:完全使用「自生成數據」實現LLM自我糾正,DeepMind新突破SCoRe:糾正性能提升15.9%
關鍵字:模型,報告,自我,基礎,研究人員
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】Google DeepMind的SCoRe方法通過在線多輪強化學習,顯著提升了大型語言模型在沒有外部輸入的情況下的自我修正能力。該方法在MATH和HumanEval基準測試中,分別將自我修正性能提高了15.6%和9.1%。OpenAI最新發布的o1模型再次證明了自我糾正、顯式思考過程在大模型推理中的重要性,思維鏈可以幫助大模型分解復雜問題,利用計算和交互來改進模型在測試時的性能。
不過,最近有多項研究結果表明,大模型在缺乏外部輸入的情況下,基本上無法實現自我糾正,而現有的自我糾正訓練方法要么需要多個模型,要么依賴更強大的模型或其他形式的監督信號。
Google DeepMind的研究人員發布了一種多輪在線強化學習(RL)方法 SCoRe,在完全使用自生成數據(entirely self-generated data)的情況下,顯著提高了LLM的自我糾正能力。論文鏈接:https://arxiv.org/pdf/2409.12917
研究人員首先驗證了有監督微調 (SFT) 及其變體得到的離線模型,生成的糾正軌跡(correction traces
原文鏈接:完全使用「自生成數據」實現LLM自我糾正,DeepMind新突破SCoRe:糾正性能提升15.9%
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...