LLM超越人類(lèi)時(shí)該如何對(duì)齊?谷歌用新RLHF框架解決了這個(gè)問(wèn)題
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLM超越人類(lèi)時(shí)該如何對(duì)齊?谷歌用新RLHF框架解決了這個(gè)問(wèn)題
關(guān)鍵字:提示,報(bào)告,模型,策略,自我
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda讓 LLM 在自我進(jìn)化時(shí)也能保持對(duì)齊。我們這個(gè)世界是不斷變化的開(kāi)放世界。人工智能要在這個(gè)世界長(zhǎng)久立足,就需要突破許多限制,包括可用數(shù)據(jù)和規(guī)模和質(zhì)量以及有用新信息的增長(zhǎng)率。
對(duì)基于 LLM 的 AI 來(lái)說(shuō),高質(zhì)量的人類(lèi)數(shù)據(jù)非常關(guān)鍵,但已有研究預(yù)計(jì)這些高質(zhì)量數(shù)據(jù)將在未來(lái)幾年耗盡。
如果 LLM 保持現(xiàn)在的發(fā)展勢(shì)頭,預(yù)計(jì)在 2028 年(中位數(shù))左右,已有的數(shù)據(jù)儲(chǔ)量將被全部利用完,來(lái)自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》
此后,這類(lèi)數(shù)據(jù)的質(zhì)量也將停滯不前:隨著 LLM 能力越來(lái)越強(qiáng),它們將能解決越來(lái)越復(fù)雜和越來(lái)越多的難題,而這些難題所需的訓(xùn)練數(shù)據(jù)已經(jīng)超出了人類(lèi)的能力。
因此,我們就需要為 LLM 構(gòu)建一種能使其實(shí)現(xiàn)自我提升的基本機(jī)制,讓模型可以持續(xù)地自我生成和自我求解更困難的問(wèn)題。
于是,問(wèn)題就來(lái)了:語(yǔ)言模型能否自我創(chuàng)建可學(xué)習(xí)的新任務(wù),從而實(shí)現(xiàn)自我改進(jìn)以更好地泛化用于人類(lèi)偏好對(duì)齊?
為了提升語(yǔ)言模型的對(duì)齊能力,人們已經(jīng)提出了許多偏好優(yōu)化算法
原文鏈接:LLM超越人類(lèi)時(shí)該如何對(duì)齊?谷歌用新RLHF框架解決了這個(gè)問(wèn)題
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: