AIGC動態歡迎閱讀
原標題:RLHF不夠用了,OpenAI設計出了新的獎勵機制
關鍵字:政策,模型,人類,反饋,數據
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部OpenAI 的新獎勵機制,讓大模型更聽話了。自大模型興起以來,使用強化學習從人類反饋(RLHF)中微調語言模型一直是確保 AI 準確遵循指令的首選方法。
為了確保 AI 系統安全運行并與人類價值觀保持一致,我們需要定義期望行為并收集人類反饋來訓練「獎勵模型」。這種模型通過發出期望的動作來指導 AI。但是,收集這些常規和重復任務的人類反饋通常效率不高。此外,如果安全政策發生變化,已經收集的反饋可能會過時,需要新的數據。
我們能否構建一種新的機制來完成這些任務?近日,OpenAI 公布了一種教導 AI 模型遵守安全政策的新方法,稱為基于規則的獎勵(Rule-Based Rewards,RBR)。
相關論文已經放出。論文標題:Rule Based Rewards for Language Model Safety
論文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
代碼鏈接:https://github.com/openai/safety-rbr-code-an
原文鏈接:RLHF不夠用了,OpenAI設計出了新的獎勵機制
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...