強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作

AIGC動態歡迎閱讀

原標題：強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作
關鍵字：模型,自我,初始化,階段,公式
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
機器之心編輯部無需依賴外部反饋或額外模型，純純的自我糾正。自我糾正（Self-correction）是大語言模型 (LLM) 非常重要的能力，但人們發現這種能力在現代 LLM 中基本上很少存在?，F有的訓練自我糾正的方法要么需要多個模型，要么依賴于更強大的模型或其他形式的監督。
我們如何才能讓 LLM 具備自我糾正能力？之前的研究要么依賴于提示工程，要么依賴于專門用于自我糾正的微調模型。但前者通常無法有效地進行有意義的內在自我糾正，而后者基于微調的方法需要在推理時運行多個模型，例如需要 oracle「教師」來監督指導自我糾正過程。
在最近提交的一篇論文中，來自 Google DeepMind 的研究者開發了一種無需上述任何要求即可有效進行自我糾正的方法，即通過強化學習進行自我糾正（SCoRe，Self-Correction via Reinforcement Learning)，只需訓練一個模型，該模型既可以對推理問題做出響應，也可以糾正錯誤，盡管沒有收到任何 oracle 反饋。更重要的是，SCoRe 完全通過在自生成數據上進行訓練來教模型具備這種能力，而無需任何 ora

原文鏈接：強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作

聯系作者

文章來源：機器之心
作者微信：
作者簡介：

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作

AIGC動態歡迎閱讀

內容摘要：

聯系作者

阿里云通義靈碼重磅升級，能自主修 BUG、開發應用的 AI 程序員來了

技術上，如何復現 o1?

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作

AIGC動態歡迎閱讀

內容摘要：

聯系作者

阿里云通義靈碼重磅升級，能自主修 BUG、開發應用的 AI 程序員來了

技術上，如何復現 o1?

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作

阿里云通義靈碼重磅升級，能自主修 BUG、開發應用的 AI 程序員來了

技術上，如何復現 o1?