大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好

AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好
文章來源:量子位
內(nèi)容字?jǐn)?shù):3757字
內(nèi)容摘要:克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI說起現(xiàn)如今訓(xùn)大模型的核心方法,RLHF是繞不開的話題。RLHF,即基于人類反饋的強(qiáng)化學(xué)習(xí),無論是ChatGPT還是開源的LLaMA都離不開它。但其中的“H”卻是一大瓶頸,因為收集高質(zhì)量的人類反饋實(shí)在是太難了。那能不能交給AI來做呢?的確有人就這么干了,但能否替代RLHF一直沒有定論,直到Google進(jìn)行了這項研究。在一篇新發(fā)布的arXiv論文中,…
原文鏈接:點(diǎn)此閱讀原文:大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號