<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了

        AIGC動態4個月前發布 量子位
        443 0 0

        PRMs整體表現堪憂,開源不如閉源

        揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了

        原標題:揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了
        文章來源:量子位
        內容字數:5899字

        復旦大學等提出PRMBench:強推理模型的“全方位體檢”

        1. **引言:** 復旦大學、蘇州大學和上海AI Lab等機構聯合推出了PRMBench,一個用于評估過程級獎勵模型 (PRMs) 性能的基準數據集。PRMs 作為強推理模型 (如o1) 的“幕后功臣”,負責評估推理過程的每一步是否正確有效,引導LLMs的學習方向。然而,目前缺乏對PRMs進行細粒度錯誤檢測能力評估的有效工具。PRMBench的出現,旨在填補這一空白,推動PRMs的改進。

        2. **PRMBench 的設計:** PRMBench包含6216個精心設計的問題和83456個步驟級標簽,遠超以往只關注最終結果正確性的評估方法。它從簡潔性、合理性和敏感性三個維度,細分為九個子類別,對PRMs進行多維度、多層次的評估。這使得PRMBench能夠更全面地識別PRMs的潛在缺陷,例如冗余步驟、部分正確步驟、完全錯誤步驟等。

        3. **主要發現:** 研究人員對15個代表性模型進行了測試,包括開源PRMs和以強大通用語言模型為Critic Model的模型。實驗結果顯示:

        3.1 **整體表現不佳:** 即使是表現最佳的Gemini-2-Thinking,其PRMScore也只有68.8,勉強高于隨機猜測的50.0。這表明現有PRMs在多步推理過程評估方面仍有巨大提升空間。

        3.2 **開源PRMs表現更弱:** 開源PRMs的平均PRMScore僅為50.1,部分甚至不如隨機猜測,暴露了其可靠性和潛在訓練偏差問題。

        3.3 **“簡潔性”成最大挑戰:** 在簡潔性維度上,即使是表現較好的ReasonEval-34B,其PRMScore也驟降至51.5,說明PRMs在識別冗余步驟方面能力不足。

        3.4 **“陽性偏好”現象顯著:** 部分模型傾向于給出正面評價,難以區分正確和錯誤步驟。

        3.5 **錯誤位置影響評估:** PRMs對錯誤步驟的判斷準確率會隨著錯誤步驟位置的后移而提高。

        4. **PRMBench 的構建過程:** 研究人員基于PRM800K數據集,篩選出完全正確的問題、答案和解題步驟作為元數據。然后,利用LLMs(特別是GPT-4)引入各種細粒度的錯誤,并經過嚴格的人工審查,確保數據質量。最終構建了包含三大評測主題(簡潔性、合理性和敏感性)的數據集。

        5. **總結:** PRMBench并非簡單的升級版評估數據集,而是一套全面的“體檢方案”,它揭示了現有PRMs的諸多不足,為PRMs的未來發展提供了重要的參考依據。其發布提醒我們重新審視現有PRMs的能力邊界,并為推動PRMs評估和發展研究奠定了堅實基礎。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩在线免费看网站| 国产亚洲精午夜久久久久久| 青青视频观看免费99| 国产美女精品视频免费观看| 亚洲女久久久噜噜噜熟女| 亚洲一区在线免费观看| 国产免费一级高清淫曰本片 | 亚洲福利在线观看| 亚洲国产精品无码久久九九大片| 国产99视频精品免费专区| 国产午夜鲁丝片AV无码免费| 亚洲色欲或者高潮影院| 无码 免费 国产在线观看91| 天天看片天天爽_免费播放| 久久国产亚洲电影天堂| 又大又硬又爽又粗又快的视频免费| 国产国拍亚洲精品福利| 色噜噜的亚洲男人的天堂| 日韩不卡免费视频| 亚洲综合成人婷婷五月网址| 无码日韩精品一区二区三区免费| 免费人成在线观看网站视频| 久久久亚洲精华液精华液精华液| 在线观看的免费网站无遮挡| 亚洲午夜久久久久久久久电影网| 国产免费阿v精品视频网址| 亚洲一区爱区精品无码| 99re在线这里只有精品免费| 亚洲av综合avav中文| 东北美女野外bbwbbw免费 | 免费无码婬片aaa直播表情| 毛片a级毛片免费播放下载| 亚洲精品美女在线观看| 免费观看久久精彩视频| 亚洲色精品vr一区二区三区| 亚洲精品免费视频| 中文字幕在线观看亚洲视频| 最近中文字幕免费mv视频7| 一级毛片a女人刺激视频免费| 亚洲国产中文字幕在线观看| 曰韩无码AV片免费播放不卡|