<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了

        AIGC動態6個月前發布 量子位
        446 0 0

        PRMs整體表現堪憂,開源不如閉源

        揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了

        原標題:揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了
        文章來源:量子位
        內容字數:5899字

        復旦大學等提出PRMBench:強推理模型的“全方位體檢”

        1. **引言:** 復旦大學、蘇州大學和上海AI Lab等機構聯合推出了PRMBench,一個用于評估過程級獎勵模型 (PRMs) 性能的基準數據集。PRMs 作為強推理模型 (如o1) 的“幕后功臣”,負責評估推理過程的每一步是否正確有效,引導LLMs的學習方向。然而,目前缺乏對PRMs進行細粒度錯誤檢測能力評估的有效工具。PRMBench的出現,旨在填補這一空白,推動PRMs的改進。

        2. **PRMBench 的設計:** PRMBench包含6216個精心設計的問題和83456個步驟級標簽,遠超以往只關注最終結果正確性的評估方法。它從簡潔性、合理性和敏感性三個維度,細分為九個子類別,對PRMs進行多維度、多層次的評估。這使得PRMBench能夠更全面地識別PRMs的潛在缺陷,例如冗余步驟、部分正確步驟、完全錯誤步驟等。

        3. **主要發現:** 研究人員對15個代表性模型進行了測試,包括開源PRMs和以強大通用語言模型為Critic Model的模型。實驗結果顯示:

        3.1 **整體表現不佳:** 即使是表現最佳的Gemini-2-Thinking,其PRMScore也只有68.8,勉強高于隨機猜測的50.0。這表明現有PRMs在多步推理過程評估方面仍有巨大提升空間。

        3.2 **開源PRMs表現更弱:** 開源PRMs的平均PRMScore僅為50.1,部分甚至不如隨機猜測,暴露了其可靠性和潛在訓練偏差問題。

        3.3 **“簡潔性”成最大挑戰:** 在簡潔性維度上,即使是表現較好的ReasonEval-34B,其PRMScore也驟降至51.5,說明PRMs在識別冗余步驟方面能力不足。

        3.4 **“陽性偏好”現象顯著:** 部分模型傾向于給出正面評價,難以區分正確和錯誤步驟。

        3.5 **錯誤位置影響評估:** PRMs對錯誤步驟的判斷準確率會隨著錯誤步驟位置的后移而提高。

        4. **PRMBench 的構建過程:** 研究人員基于PRM800K數據集,篩選出完全正確的問題、答案和解題步驟作為元數據。然后,利用LLMs(特別是GPT-4)引入各種細粒度的錯誤,并經過嚴格的人工審查,確保數據質量。最終構建了包含三大評測主題(簡潔性、合理性和敏感性)的數據集。

        5. **總結:** PRMBench并非簡單的升級版評估數據集,而是一套全面的“體檢方案”,它揭示了現有PRMs的諸多不足,為PRMs的未來發展提供了重要的參考依據。其發布提醒我們重新審視現有PRMs的能力邊界,并為推動PRMs評估和發展研究奠定了堅實基礎。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 欧洲亚洲综合一区二区三区| 人人狠狠综合久久亚洲婷婷| 亚洲一区二区三区四区视频| 久久午夜免费鲁丝片| 国产成人亚洲影院在线观看| 深夜特黄a级毛片免费播放| 免费成人午夜视频| 有码人妻在线免费看片| 免费一级做a爰片性色毛片| 精品女同一区二区三区免费播放 | 免费国产污网站在线观看| 亚洲精品无码av人在线观看| 国产一精品一av一免费爽爽| 亚洲精品免费视频| 免费国产成人高清在线观看网站| 91亚洲国产成人久久精品网址| 性做久久久久久免费观看| 亚洲午夜成人精品无码色欲| 四虎1515hm免费国产| 国产精品免费在线播放| 色噜噜综合亚洲av中文无码| 中文字幕无码视频手机免费看| 亚洲av永久无码| 亚洲开心婷婷中文字幕| 一级女人18毛片免费| 看一级毛片免费观看视频| 国产亚洲精AA在线观看SEE| 免费看男女下面日出水来| 99亚洲乱人伦aⅴ精品| 亚洲国产精品高清久久久| 国产成人精品免费午夜app| 蜜桃传媒一区二区亚洲AV| 国产精一品亚洲二区在线播放| 亚洲成人免费在线观看| 在线91精品亚洲网站精品成人| 国产成人亚洲综合色影视| 国产精品美女午夜爽爽爽免费| 一个人免费播放在线视频看片| 亚洲精品国产福利片| 国产v片免费播放| 亚洲毛片在线免费观看|