Karpathy觀點惹爭議：RLHF不是真正的強化學習，谷歌、Meta下場反對

AIGC動態歡迎閱讀

原標題：Karpathy觀點惹爭議：RLHF不是真正的強化學習，谷歌、Meta下場反對
關鍵字：模型,人類,圍棋,氛圍,觀點
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：杜偉RLHF 與 RL 到底能不能歸屬為一類，看來大家還是有不一樣的看法。
AI 大牛 Karpathy 又來科普人工智能概念了。
昨日，他發推表示，「基于人類反饋的強化學習（RLHF）只是勉強算得上是強化學習（RL）。」Karpathy 的全文解釋如下：
RLHF 是訓練大語言模型（LLM）的第三個（也是最后一個）主要階段，前兩個階段分別是預訓練和監督微調（SFT）。我認為 RLHF 只是勉強算得上 RL，它沒有得到廣泛的認可。RL 很強大，但 RLHF 卻不然。
讓我們看看 AlphaGo 的例子，它是使用真正的 RL 訓練的。計算機玩圍棋（Go）游戲，并在實現獎勵函數最大化的回合（贏得比賽）中訓練，最終超越了最厲害的人類棋手。AlphaGo 沒有使用 RLHF 進行訓練，如果它用了，效果就不會那么好。
用 RLHF 訓練 AlphaGo 會是什么樣子呢？首先，你要給人類標注員兩個圍棋棋盤的狀態，然后問他們更喜歡哪一種：然后你會收集到 10 萬個類似的比較，并訓練一個「獎勵模型」（RM）神經網絡來模擬人類對棋盤狀態的氛圍檢查（vibe check）。你要訓練它同

原文鏈接：Karpathy觀點惹爭議：RLHF不是真正的強化學習，谷歌、Meta下場反對

聯系作者

文章來源：機器之心
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 人類 # 圍棋 # 模型 # 氛圍 # 觀點

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

Karpathy觀點惹爭議：RLHF不是真正的強化學習，谷歌、Meta下場反對

AIGC動態歡迎閱讀

內容摘要：

聯系作者

OpenAI總裁休假后首次發聲：研究和產品非常強勁，缺了我也能轉

“Alpha 乒乓”來了！學了 1.4 萬個對拉球，谷歌乒乓機器人球技橫掃大部分選手！網友：4 年后代表美國打奧運

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

Karpathy觀點惹爭議：RLHF不是真正的強化學習，谷歌、Meta下場反對

AIGC動態歡迎閱讀

內容摘要：

聯系作者

OpenAI總裁休假后首次發聲：研究和產品非常強勁，缺了我也能轉

“Alpha 乒乓”來了！學了 1.4 萬個對拉球，谷歌乒乓機器人球技橫掃大部分選手！網友：4 年后代表美國打奧運

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

OpenAI總裁休假后首次發聲：研究和產品非常強勁，缺了我也能轉

“Alpha 乒乓”來了！學了 1.4 萬個對拉球，谷歌乒乓機器人球技橫掃大部分選手！網友：4 年后代表美國打奧運