Bengio團隊新論文！KL正則化有漏洞，強化學習新策略：不要做我可能不會做的事情

AIGC動態歡迎閱讀

原標題：Bengio團隊新論文！KL正則化有漏洞，強化學習新策略：不要做我可能不會做的事情
關鍵字：策略,智能,基礎,行為,模型
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】在強化學習中，當智能體的獎勵機制與設計者的意圖不一致時，可能會導致不理想的行為，而KL正則化作為一種常用的解決方案，通過限制智能體的行為來防止這種情況，但智能體在某些情況下仍可能表現出意料之外的行為；為了提高智能體的可靠性，研究人員提出了新的理論方案，通過改變指導原則來增強智能體在未知情況下的謹慎性。在強化學習中，智能體的獎勵機制有時會與設計者的真實目的存在差異，比如一個機器人，開發者希望它能夠通過學習來更好地完成任務，然后設計了一個獎勵系統，當模型做出預期中認為有用的事情時，就會得到獎勵；但有時候，智能體可能會做出非預期的行為，其獎勵系統可能并不完全符合真實意圖。
為了防止這種情況，業界通常會使用一種叫做KL正則化的技術，類似于給智能體一個行為準則「不要做我不會做的事情。」，目前主流的語言模型，比如能夠生成流暢文本的智能體，都是使用這種技術進行訓練的。
但這里有一個潛在的問題，如果智能體是基于一個預測模型來模仿人類的行為，那么KL正則化可能就不夠用了：即使智能體的行為在大多數情況下看起來都很好，但在某些情況下，也可能會做出一些出乎意料的行

原文鏈接：Bengio團隊新論文！KL正則化有漏洞，強化學習新策略：不要做我可能不會做的事情