強(qiáng)化學(xué)習(xí)讓大模型自動(dòng)糾錯(cuò),數(shù)學(xué)、編程性能暴漲,DeepMind新作
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:強(qiáng)化學(xué)習(xí)讓大模型自動(dòng)糾錯(cuò),數(shù)學(xué)、編程性能暴漲,DeepMind新作
關(guān)鍵字:模型,自我,初始化,階段,公式
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部無(wú)需依賴外部反饋或額外模型,純純的自我糾正。自我糾正(Self-correction)是大語(yǔ)言模型 (LLM) 非常重要的能力,但人們發(fā)現(xiàn)這種能力在現(xiàn)代 LLM 中基本上很少存在。現(xiàn)有的訓(xùn)練自我糾正的方法要么需要多個(gè)模型,要么依賴于更強(qiáng)大的模型或其他形式的監(jiān)督。
我們?nèi)绾尾拍茏?LLM 具備自我糾正能力?之前的研究要么依賴于提示工程,要么依賴于專門(mén)用于自我糾正的微調(diào)模型。但前者通常無(wú)法有效地進(jìn)行有意義的內(nèi)在自我糾正,而后者基于微調(diào)的方法需要在推理時(shí)運(yùn)行多個(gè)模型,例如需要 oracle「教師」來(lái)監(jiān)督指導(dǎo)自我糾正過(guò)程。
在最近提交的一篇論文中,來(lái)自 Google DeepMind 的研究者開(kāi)發(fā)了一種無(wú)需上述任何要求即可有效進(jìn)行自我糾正的方法,即通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行自我糾正(SCoRe,Self-Correction via Reinforcement Learning),只需訓(xùn)練一個(gè)模型,該模型既可以對(duì)推理問(wèn)題做出響應(yīng),也可以糾正錯(cuò)誤,盡管沒(méi)有收到任何 oracle 反饋。更重要的是,SCoRe 完全通過(guò)在自生成數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)教模型具備這種能力,而無(wú)需任何 ora
原文鏈接:強(qiáng)化學(xué)習(xí)讓大模型自動(dòng)糾錯(cuò),數(shù)學(xué)、編程性能暴漲,DeepMind新作
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: