像人類一樣在批評(píng)中學(xué)習(xí)成長(zhǎng),1317條評(píng)語(yǔ)讓LLaMA2勝率飆升30倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:像人類一樣在批評(píng)中學(xué)習(xí)成長(zhǎng),1317條評(píng)語(yǔ)讓LLaMA2勝率飆升30倍
關(guān)鍵字:模型,反饋,語(yǔ)言,研究者,騰訊
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8819字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部除了分?jǐn)?shù),打出分?jǐn)?shù)背后的理由對(duì)于大模型對(duì)齊更具價(jià)值。現(xiàn)有的大模型對(duì)齊方法包括基于示例的監(jiān)督微調(diào)(SFT)和基于分?jǐn)?shù)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。然而,分?jǐn)?shù)只能反應(yīng)當(dāng)前回復(fù)的好壞程度,并不能明確指出模型的不足之處。相較之下,我們?nèi)祟愅ǔJ菑恼Z(yǔ)言反饋中學(xué)習(xí)并調(diào)整自己的行為模式。就像審稿意見不僅僅是一個(gè)分?jǐn)?shù),還包括許多接受或者拒絕的理由。
那么,大語(yǔ)言模型能否也像人類一樣利用語(yǔ)言反饋來(lái)改善自身呢?
最近,香港中文大學(xué)和騰訊 AI Lab 的研究者們提出了一項(xiàng)名為對(duì)比式非似然訓(xùn)練(Contrastive Unlikelihood Learning,CUT)的創(chuàng)新研究,利用語(yǔ)言反饋來(lái)對(duì)齊語(yǔ)言模型,讓模型像人類一樣從不同的批評(píng)意見中學(xué)習(xí)成長(zhǎng)。
CUT 簡(jiǎn)單有效。僅憑 1317 條語(yǔ)言反饋數(shù)據(jù),CUT 就能使 LLaMA2-13b 在 AlpacaEval 上的 win rate 從 1.87% 飆升至 62.56%,擊敗 175B 的 DaVinci003。更令人興奮的是,CUT 能像其他 RLHF 框架一樣形成探索 -> 批評(píng) -> 改進(jìn)的反復(fù)迭代,其中批評(píng)可由自動(dòng)的評(píng)
原文鏈接:像人類一樣在批評(píng)中學(xué)習(xí)成長(zhǎng),1317條評(píng)語(yǔ)讓LLaMA2勝率飆升30倍
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)