AIGC動態歡迎閱讀
原標題:Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對
關鍵字:模型,人類,圍棋,氛圍,觀點
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉RLHF 與 RL 到底能不能歸屬為一類,看來大家還是有不一樣的看法。
AI 大牛 Karpathy 又來科普人工智能概念了。
昨日,他發推表示,「基于人類反饋的強化學習(RLHF)只是勉強算得上是強化學習(RL)。」Karpathy 的全文解釋如下:
RLHF 是訓練大語言模型(LLM)的第三個(也是最后一個)主要階段,前兩個階段分別是預訓練和監督微調(SFT)。我認為 RLHF 只是勉強算得上 RL,它沒有得到廣泛的認可。RL 很強大,但 RLHF 卻不然。
讓我們看看 AlphaGo 的例子,它是使用真正的 RL 訓練的。計算機玩圍棋(Go)游戲,并在實現獎勵函數最大化的回合(贏得比賽)中訓練,最終超越了最厲害的人類棋手。AlphaGo 沒有使用 RLHF 進行訓練,如果它用了,效果就不會那么好。
用 RLHF 訓練 AlphaGo 會是什么樣子呢?首先,你要給人類標注員兩個圍棋棋盤的狀態,然后問他們更喜歡哪一種:然后你會收集到 10 萬個類似的比較,并訓練一個「獎勵模型」(RM)神經網絡來模擬人類對棋盤狀態的氛圍檢查(vibe check)。你要訓練它同
原文鏈接:Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...