AIGC動態歡迎閱讀
原標題:強化學習讓大模型自動糾錯,數學、編程性能暴漲,DeepMind新作
關鍵字:模型,自我,初始化,階段,公式
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部無需依賴外部反饋或額外模型,純純的自我糾正。自我糾正(Self-correction)是大語言模型 (LLM) 非常重要的能力,但人們發現這種能力在現代 LLM 中基本上很少存在?,F有的訓練自我糾正的方法要么需要多個模型,要么依賴于更強大的模型或其他形式的監督。
我們如何才能讓 LLM 具備自我糾正能力?之前的研究要么依賴于提示工程,要么依賴于專門用于自我糾正的微調模型。但前者通常無法有效地進行有意義的內在自我糾正,而后者基于微調的方法需要在推理時運行多個模型,例如需要 oracle「教師」來監督指導自我糾正過程。
在最近提交的一篇論文中,來自 Google DeepMind 的研究者開發了一種無需上述任何要求即可有效進行自我糾正的方法,即通過強化學習進行自我糾正(SCoRe,Self-Correction via Reinforcement Learning),只需訓練一個模型,該模型既可以對推理問題做出響應,也可以糾正錯誤,盡管沒有收到任何 oracle 反饋。更重要的是,SCoRe 完全通過在自生成數據上進行訓練來教模型具備這種能力,而無需任何 ora
原文鏈接:強化學習讓大模型自動糾錯,數學、編程性能暴漲,DeepMind新作
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...