AIGC動態歡迎閱讀
原標題:ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現實決策場景
關鍵字:反饋,數據,任務,標簽,基線
文章來源:機器之心
內容字數:7625字
內容摘要:
機器之心專欄
機器之心編輯部RLHF 通過學習人類偏好,能夠在難以手工設計獎勵函數的復雜決策任務中學習到正確的獎勵引導,得到了很高的關注,在不同環境中選擇合適的人類反饋類型和不同的學習方法至關重要。
然而,當前研究社區缺乏能夠支持這一需求的標準化標注平臺和統一基準,量化和比較 RLHF 的最新進展是有挑戰性的。
本文中,天津大學深度強化學習實驗室的研究團隊推出了面向現實決策場景的 Uni-RLHF 平臺,這是一個專為 RLHF 量身定制的綜合系統實施方案。它旨在根據真實的人類反饋提供完整的工作流程,一站式解決實際問題。論文題目:Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
項目主頁:https://uni-rlhf.github.io/
平臺鏈接:https://github.com/pickxiguapi/Uni-RLHF-Platform
算法代碼庫:https://github.com/pickxiguapi/Clean
原文鏈接:ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現實決策場景
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...