AIGC動態歡迎閱讀
原標題:像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍
關鍵字:模型,反饋,語言,研究者,騰訊
文章來源:機器之心
內容字數:8819字
內容摘要:
機器之心專欄
機器之心編輯部除了分數,打出分數背后的理由對于大模型對齊更具價值。現有的大模型對齊方法包括基于示例的監督微調(SFT)和基于分數反饋的強化學習(RLHF)。然而,分數只能反應當前回復的好壞程度,并不能明確指出模型的不足之處。相較之下,我們人類通常是從語言反饋中學習并調整自己的行為模式。就像審稿意見不僅僅是一個分數,還包括許多接受或者拒絕的理由。
那么,大語言模型能否也像人類一樣利用語言反饋來改善自身呢?
最近,香港中文大學和騰訊 AI Lab 的研究者們提出了一項名為對比式非似然訓練(Contrastive Unlikelihood Learning,CUT)的創新研究,利用語言反饋來對齊語言模型,讓模型像人類一樣從不同的批評意見中學習成長。
CUT 簡單有效。僅憑 1317 條語言反饋數據,CUT 就能使 LLaMA2-13b 在 AlpacaEval 上的 win rate 從 1.87% 飆升至 62.56%,擊敗 175B 的 DaVinci003。更令人興奮的是,CUT 能像其他 RLHF 框架一樣形成探索 -> 批評 -> 改進的反復迭代,其中批評可由自動的評
原文鏈接:像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...