像人類一樣在批評中學習成長，1317條評語讓LLaMA2勝率飆升30倍

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：像人類一樣在批評中學習成長，1317條評語讓LLaMA2勝率飆升30倍
關鍵字：模型,反饋,語言,研究者,騰訊
文章來源：機器之心
內容字數：8819字

內容摘要：

機器之心專欄
機器之心編輯部除了分數，打出分數背后的理由對于大模型對齊更具價值。現有的大模型對齊方法包括基于示例的監督微調（SFT）和基于分數反饋的強化學習（RLHF）。然而，分數只能反應當前回復的好壞程度，并不能明確指出模型的不足之處。相較之下，我們人類通常是從語言反饋中學習并調整自己的行為模式。就像審稿意見不僅僅是一個分數，還包括許多接受或者拒絕的理由。
那么，大語言模型能否也像人類一樣利用語言反饋來改善自身呢？
最近，香港中文大學和騰訊 AI Lab 的研究者們提出了一項名為對比式非似然訓練（Contrastive Unlikelihood Learning，CUT）的創新研究，利用語言反饋來對齊語言模型，讓模型像人類一樣從不同的批評意見中學習成長。
CUT 簡單有效。僅憑 1317 條語言反饋數據，CUT 就能使 LLaMA2-13b 在 AlpacaEval 上的 win rate 從 1.87% 飆升至 62.56%，擊敗 175B 的 DaVinci003。更令人興奮的是，CUT 能像其他 RLHF 框架一樣形成探索 -> 批評 -> 改進的反復迭代，其中批評可由自動的評

原文鏈接：像人類一樣在批評中學習成長，1317條評語讓LLaMA2勝率飆升30倍

聯系作者

文章來源：機器之心
作者微信：almosthuman2014
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 反饋 # 模型 # 研究者 # 騰訊 # 語言

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

像人類一樣在批評中學習成長，1317條評語讓LLaMA2勝率飆升30倍

AIGC動態歡迎閱讀

內容摘要：

聯系作者

今日arXiv最熱NLP大模型論文：IBM研究院提出Genie方法，自動生成高質量數據集

決戰拜年之巔！你能經受住AI七大姑八大姨的靈魂拷問嗎？

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

像人類一樣在批評中學習成長，1317條評語讓LLaMA2勝率飆升30倍

AIGC動態歡迎閱讀

內容摘要：

聯系作者

今日arXiv最熱NLP大模型論文：IBM研究院提出Genie方法，自動生成高質量數據集

決戰拜年之巔！你能經受住AI七大姑八大姨的靈魂拷問嗎？

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

像人類一樣在批評中學習成長，1317條評語讓LLaMA2勝率飆升30倍

今日arXiv最熱NLP大模型論文：IBM研究院提出Genie方法，自動生成高質量數據集

決戰拜年之巔！你能經受住AI七大姑八大姨的靈魂拷問嗎？