AIGC動態歡迎閱讀
原標題:強化學習之父Richard Sutton給出一個簡單思路,大幅增強所有RL算法
關鍵字:現值,因子,算法,誤差,狀態
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:panda在獎勵中減去平均獎勵
在當今的大模型時代,以 RLHF 為代表的強化學習方法具有無可替代的重要性,甚至成為了 OpenAI ο1 等模型實現強大推理能力的關鍵。但這些強化學習方法仍有改進空間。近日,強化學習之父、阿爾伯塔大學教授 Richard Sutton 的團隊低調更新了一篇論文,其中提出了一種新的通用思想 Reward Centering,并稱該思想適用于幾乎所有強化學習算法。這里我們將其譯為「獎勵聚中」。該論文是首屆強化學習會議(RLC 2024)的入選論文之一。一作 Abhishek Naik 剛剛從阿爾伯塔大學獲得博士學位,他是 Sutton 教授的第 12 位博士畢業生。
下面我們簡要看看 Reward Centering 有何創新之處。論文標題:Reward Centering
論文地址:https://arxiv.org/pdf/2405.09999
獎勵聚中理論
智能體和環境之間的交互可以表述為一個有限馬爾可夫決策過程(MDP)(S, A, R, p),其中 S 表示狀態集,A 表示動作集,R 表示獎勵集,p : S × R × S ×
原文鏈接:強化學習之父Richard Sutton給出一個簡單思路,大幅增強所有RL算法
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...