ICLR 2024 | RLHF有了通用平臺(tái)和基準(zhǔn),天大開(kāi)源,專(zhuān)攻現(xiàn)實(shí)決策場(chǎng)景
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 | RLHF有了通用平臺(tái)和基準(zhǔn),天大開(kāi)源,專(zhuān)攻現(xiàn)實(shí)決策場(chǎng)景
關(guān)鍵字:反饋,數(shù)據(jù),任務(wù),標(biāo)簽,基線
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7625字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部RLHF 通過(guò)學(xué)習(xí)人類(lèi)偏好,能夠在難以手工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的復(fù)雜決策任務(wù)中學(xué)習(xí)到正確的獎(jiǎng)勵(lì)引導(dǎo),得到了很高的關(guān)注,在不同環(huán)境中選擇合適的人類(lèi)反饋類(lèi)型和不同的學(xué)習(xí)方法至關(guān)重要。
然而,當(dāng)前研究社區(qū)缺乏能夠支持這一需求的標(biāo)準(zhǔn)化標(biāo)注平臺(tái)和統(tǒng)一基準(zhǔn),量化和比較 RLHF 的最新進(jìn)展是有挑戰(zhàn)性的。
本文中,天津大學(xué)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室的研究團(tuán)隊(duì)推出了面向現(xiàn)實(shí)決策場(chǎng)景的 Uni-RLHF 平臺(tái),這是一個(gè)專(zhuān)為 RLHF 量身定制的綜合系統(tǒng)實(shí)施方案。它旨在根據(jù)真實(shí)的人類(lèi)反饋提供完整的工作流程,一站式解決實(shí)際問(wèn)題。論文題目:Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
項(xiàng)目主頁(yè):https://uni-rlhf.github.io/
平臺(tái)鏈接:https://github.com/pickxiguapi/Uni-RLHF-Platform
算法代碼庫(kù):https://github.com/pickxiguapi/Clean
原文鏈接:ICLR 2024 | RLHF有了通用平臺(tái)和基準(zhǔn),天大開(kāi)源,專(zhuān)攻現(xiàn)實(shí)決策場(chǎng)景
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)