Bengio團(tuán)隊新論文!KL正則化有漏洞,強(qiáng)化學(xué)習(xí)新策略:不要做我可能不會做的事情
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Bengio團(tuán)隊新論文!KL正則化有漏洞,強(qiáng)化學(xué)習(xí)新策略:不要做我可能不會做的事情
關(guān)鍵字:策略,智能,基礎(chǔ),行為,模型
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】在強(qiáng)化學(xué)習(xí)中,當(dāng)智能體的獎勵機(jī)制與設(shè)計者的意圖不一致時,可能會導(dǎo)致不理想的行為,而KL正則化作為一種常用的解決方案,通過限制智能體的行為來防止這種情況,但智能體在某些情況下仍可能表現(xiàn)出意料之外的行為;為了提高智能體的可靠性,研究人員提出了新的理論方案,通過改變指導(dǎo)原則來增強(qiáng)智能體在未知情況下的謹(jǐn)慎性。在強(qiáng)化學(xué)習(xí)中,智能體的獎勵機(jī)制有時會與設(shè)計者的真實目的存在差異, 比如一個機(jī)器人,開發(fā)者希望它能夠通過學(xué)習(xí)來更好地完成任務(wù),然后設(shè)計了一個獎勵系統(tǒng),當(dāng)模型做出預(yù)期中認(rèn)為有用的事情時,就會得到獎勵;但有時候,智能體可能會做出非預(yù)期的行為,其獎勵系統(tǒng)可能并不完全符合真實意圖。
為了防止這種情況,業(yè)界通常會使用一種叫做KL正則化的技術(shù),類似于給智能體一個行為準(zhǔn)則「不要做我不會做的事情。」,目前主流的語言模型,比如能夠生成流暢文本的智能體,都是使用這種技術(shù)進(jìn)行訓(xùn)練的。
但這里有一個潛在的問題,如果智能體是基于一個預(yù)測模型來模仿人類的行為,那么KL正則化可能就不夠用了:即使智能體的行為在大多數(shù)情況下看起來都很好,但在某些情況下,也可能會做出一些出乎意料的行
原文鏈接:Bengio團(tuán)隊新論文!KL正則化有漏洞,強(qiáng)化學(xué)習(xí)新策略:不要做我可能不會做的事情
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: