標簽:反饋

大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好

克雷西 發自 凹非寺量子位 | 公眾號 QbitAI說起現如今訓大模型的核心方法,RLHF是繞不開的話題。RLHF,即基于人類反饋的強化學習,無論是ChatGPT還是開源的LL...
閱讀原文
123