AIGC動態歡迎閱讀
原標題:ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun聯手開懟RLHF!
關鍵字:人類,模型,圍棋,定義,智能
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊好困
【新智元導讀】RLHF到底是不是強化學習?最近,AI大佬圈因為這個討論炸鍋了。和LeCun同為質疑派的Karpathy表示:比起那種讓AlphaGo在圍棋中擊敗人類的強化學習,RLHF還差得遠呢。昨天,Andrej Karpathy又發了長推,不過用了一句很有爭議的話開頭——「RLHF只是勉強的RL」。
這條可謂「一石激起千層浪」,瞬間點燃了LLM社區的討論熱情。
畢竟RLHF作為剛提出沒幾年的方法,又新穎又有爭議。一邊遭受質疑,一邊又在工業界和學界迅速流行。
5G沖浪的LeCun也趕來聲援Karpathy,但他的話很短,只有一句——「RLHF不是真正的RL」。
RLHF最早可以追溯到OpenAI安全團隊2017年發表的論文:
論文地址:https://arxiv.org/abs/1706.03741
當時,Jan Leike還在DeepMind、Dario Amodei還沒創辦Anthropic,而OpenAI還沒all in語言模型,仍是一家研究范圍更廣泛的AI公司。
他們提出,通過人類反饋,讓AI模型更好地學習「如何翻出一個漂亮的后空翻」。
訓練時
原文鏈接:ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun聯手開懟RLHF!
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...