首屆大模型頂會(huì)COLM 高分論文:偏好搜索算法PairS,讓大模型進(jìn)行文本評(píng)估更高效

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首屆大模型頂會(huì)COLM 高分論文:偏好搜索算法PairS,讓大模型進(jìn)行文本評(píng)估更高效
關(guān)鍵字:偏見(jiàn),人類(lèi),算法,模型,高效
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com文章作者皆為來(lái)自劍橋大學(xué)語(yǔ)言技術(shù)實(shí)驗(yàn)室,一作為三年級(jí)博士生劉胤宏,導(dǎo)師為教授 Nigel Collier 和 Ehsan Shareghi。他的研究興趣是大模型和文本評(píng)估,數(shù)據(jù)生成等。共同一作為二年級(jí)博士生周涵,導(dǎo)師為教授 Anna Korhonen 和 Ivan Vuli?,他的研究興趣是高效大模型。
大模型展現(xiàn)出了卓越的指令跟從和任務(wù)泛化的能力,這種獨(dú)特的能力源自 LLMs 在訓(xùn)練中使用了指令跟隨數(shù)據(jù)以及人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)。在 RLHF 訓(xùn)練范式中,獎(jiǎng)勵(lì)模型根據(jù)排名比較數(shù)據(jù)與人類(lèi)偏好對(duì)齊。這增強(qiáng)了 LLMs 與人類(lèi)價(jià)值觀的對(duì)齊,從而生成更好地幫助人類(lèi)并遵守人類(lèi)價(jià)值觀的回應(yīng)。
近日,第一屆大模型頂會(huì) COLM 剛剛公布接收結(jié)果,其中一項(xiàng)高分工作分析
原文鏈接:首屆大模型頂會(huì)COLM 高分論文:偏好搜索算法PairS,讓大模型進(jìn)行文本評(píng)估更高效
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)