<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對

        AIGC動態1年前 (2024)發布 機器之心
        451 0 0

        Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對

        AIGC動態歡迎閱讀

        原標題:Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對
        關鍵字:模型,人類,圍棋,氛圍,觀點
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        機器之心報道
        編輯:杜偉RLHF 與 RL 到底能不能歸屬為一類,看來大家還是有不一樣的看法。
        AI 大牛 Karpathy 又來科普人工智能概念了。
        昨日,他發推表示,「基于人類反饋的強化學習(RLHF)只是勉強算得上是強化學習(RL)。」Karpathy 的全文解釋如下:
        RLHF 是訓練大語言模型(LLM)的第三個(也是最后一個)主要階段,前兩個階段分別是預訓練和監督微調(SFT)。我認為 RLHF 只是勉強算得上 RL,它沒有得到廣泛的認可。RL 很強大,但 RLHF 卻不然。
        讓我們看看 AlphaGo 的例子,它是使用真正的 RL 訓練的。計算機玩圍棋(Go)游戲,并在實現獎勵函數最大化的回合(贏得比賽)中訓練,最終超越了最厲害的人類棋手。AlphaGo 沒有使用 RLHF 進行訓練,如果它用了,效果就不會那么好。
        用 RLHF 訓練 AlphaGo 會是什么樣子呢?首先,你要給人類標注員兩個圍棋棋盤的狀態,然后問他們更喜歡哪一種:然后你會收集到 10 萬個類似的比較,并訓練一個「獎勵模型」(RM)神經網絡來模擬人類對棋盤狀態的氛圍檢查(vibe check)。你要訓練它同


        原文鏈接:Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對

        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费一级不卡毛片| 亚洲日日做天天做日日谢| 免费一级毛片正在播放| 亚洲精品乱码久久久久久下载| 亚洲视频2020| 3344在线看片免费| 亚洲免费黄色网址| 在线精品免费视频| 国产啪亚洲国产精品无码| 国产偷国产偷亚洲高清在线| 日韩高清免费观看| 男女男精品网站免费观看| 亚洲精品无码99在线观看 | 亚洲小视频在线观看| 98精品全国免费观看视频| 国产一级特黄高清免费大片| 亚洲三级电影网站| 又大又硬又爽又粗又快的视频免费| 久久久久亚洲AV成人片| 在线天堂免费观看.WWW| 亚洲国产成人久久一区二区三区| 四虎国产精品免费视| 黄视频在线观看免费| 免费国产怡红院在线观看| 国产97视频人人做人人爱免费| 亚洲国产精品一区第二页| 1000部夫妻午夜免费| 亚洲av无码无线在线观看| 亚洲中文字幕无码一区| 精品熟女少妇av免费久久| 久久夜色精品国产噜噜亚洲a| 免费看小12萝裸体视频国产| 特级做A爰片毛片免费看无码| 亚洲色成人网一二三区| 国产成人高清精品免费软件| 91亚洲精品麻豆| 亚洲成a人片在线播放| 亚洲AV永久无码精品一福利| 国产亚洲午夜高清国产拍精品| 最近2019免费中文字幕6| 亚洲AV无码专区在线观看成人|