強化學習讓大模型自動糾錯,數(shù)學、編程性能暴漲,DeepMind新作

AIGC動態(tài)歡迎閱讀
原標題:強化學習讓大模型自動糾錯,數(shù)學、編程性能暴漲,DeepMind新作
關(guān)鍵字:模型,自我,初始化,階段,公式
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
機器之心編輯部無需依賴外部反饋或額外模型,純純的自我糾正。自我糾正(Self-correction)是大語言模型 (LLM) 非常重要的能力,但人們發(fā)現(xiàn)這種能力在現(xiàn)代 LLM 中基本上很少存在。現(xiàn)有的訓練自我糾正的方法要么需要多個模型,要么依賴于更強大的模型或其他形式的監(jiān)督。
我們?nèi)绾尾拍茏?LLM 具備自我糾正能力?之前的研究要么依賴于提示工程,要么依賴于專門用于自我糾正的微調(diào)模型。但前者通常無法有效地進行有意義的內(nèi)在自我糾正,而后者基于微調(diào)的方法需要在推理時運行多個模型,例如需要 oracle「教師」來監(jiān)督指導(dǎo)自我糾正過程。
在最近提交的一篇論文中,來自 Google DeepMind 的研究者開發(fā)了一種無需上述任何要求即可有效進行自我糾正的方法,即通過強化學習進行自我糾正(SCoRe,Self-Correction via Reinforcement Learning),只需訓練一個模型,該模型既可以對推理問題做出響應(yīng),也可以糾正錯誤,盡管沒有收到任何 oracle 反饋。更重要的是,SCoRe 完全通過在自生成數(shù)據(jù)上進行訓練來教模型具備這種能力,而無需任何 ora
原文鏈接:強化學習讓大模型自動糾錯,數(shù)學、編程性能暴漲,DeepMind新作
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號