<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

揭秘大模型強推理能力幕后功臣“缺陷”，過程級獎勵模型新基準來了

AIGC動態6個月前發布量子位

446 0 0

PRMs整體表現堪憂，開源不如閉源

揭秘大模型強推理能力幕后功臣“缺陷”，過程級獎勵模型新基準來了

原標題：揭秘大模型強推理能力幕后功臣“缺陷”，過程級獎勵模型新基準來了
文章來源：量子位
內容字數：5899字

復旦大學等提出PRMBench：強推理模型的“全方位體檢”

1. **引言:** 復旦大學、蘇州大學和上海AI Lab等機構聯合推出了PRMBench，一個用于評估過程級獎勵模型 (PRMs) 性能的基準數據集。PRMs 作為強推理模型 (如o1) 的“幕后功臣”，負責評估推理過程的每一步是否正確有效，引導LLMs的學習方向。然而，目前缺乏對PRMs進行細粒度錯誤檢測能力評估的有效工具。PRMBench的出現，旨在填補這一空白，推動PRMs的改進。

2. **PRMBench 的設計:** PRMBench包含6216個精心設計的問題和83456個步驟級標簽，遠超以往只關注最終結果正確性的評估方法。它從簡潔性、合理性和敏感性三個維度，細分為九個子類別，對PRMs進行多維度、多層次的評估。這使得PRMBench能夠更全面地識別PRMs的潛在缺陷，例如冗余步驟、部分正確步驟、完全錯誤步驟等。

3. **主要發現:** 研究人員對15個代表性模型進行了測試，包括開源PRMs和以強大通用語言模型為Critic Model的模型。實驗結果顯示：

3.1 **整體表現不佳:** 即使是表現最佳的Gemini-2-Thinking，其PRMScore也只有68.8，勉強高于隨機猜測的50.0。這表明現有PRMs在多步推理過程評估方面仍有巨大提升空間。

3.2 **開源PRMs表現更弱:** 開源PRMs的平均PRMScore僅為50.1，部分甚至不如隨機猜測，暴露了其可靠性和潛在訓練偏差問題。

3.3 **“簡潔性”成最大挑戰:** 在簡潔性維度上，即使是表現較好的ReasonEval-34B，其PRMScore也驟降至51.5，說明PRMs在識別冗余步驟方面能力不足。

3.4 **“陽性偏好”現象顯著:** 部分模型傾向于給出正面評價，難以區分正確和錯誤步驟。

3.5 **錯誤位置影響評估:** PRMs對錯誤步驟的判斷準確率會隨著錯誤步驟位置的后移而提高。

4. **PRMBench 的構建過程:** 研究人員基于PRM800K數據集，篩選出完全正確的問題、答案和解題步驟作為元數據。然后，利用LLMs（特別是GPT-4）引入各種細粒度的錯誤，并經過嚴格的人工審查，確保數據質量。最終構建了包含三大評測主題（簡潔性、合理性和敏感性）的數據集。

5. **總結:** PRMBench并非簡單的升級版評估數據集，而是一套全面的“體檢方案”，它揭示了現有PRMs的諸多不足，為PRMs的未來發展提供了重要的參考依據。其發布提醒我們重新審視現有PRMs的能力邊界，并為推動PRMs評估和發展研究奠定了堅實基礎。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

# AIGC動態 # 大模型推理能力 # 強化學習 # 新基準測試 # 缺陷分析 # 過程級獎勵模型

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...

主站蜘蛛池模板：欧洲亚洲综合一区二区三区| 人人狠狠综合久久亚洲婷婷| 亚洲一区二区三区四区视频| 久久午夜免费鲁丝片| 国产成人亚洲影院在线观看| 深夜特黄a级毛片免费播放| 免费成人午夜视频| 有码人妻在线免费看片| 免费一级做a爰片性色毛片| 精品女同一区二区三区免费播放 | 免费国产污网站在线观看| 亚洲精品无码av人在线观看| 国产一精品一av一免费爽爽| 亚洲精品免费视频| 免费国产成人高清在线观看网站| 91亚洲国产成人久久精品网址| 性做久久久久久免费观看| 亚洲午夜成人精品无码色欲| 四虎1515hm免费国产| 国产精品免费在线播放| 色噜噜综合亚洲av中文无码| 中文字幕无码视频手机免费看| 亚洲av永久无码| 亚洲开心婷婷中文字幕| 一级女人18毛片免费| 看一级毛片免费观看视频| 国产亚洲精AA在线观看SEE| 免费看男女下面日出水来| 99亚洲乱人伦aⅴ精品| 亚洲国产精品高清久久久| 国产成人精品免费午夜app| 蜜桃传媒一区二区亚洲AV| 国产精一品亚洲二区在线播放| 亚洲成人免费在线观看| 在线91精品亚洲网站精品成人| 国产成人亚洲综合色影视| 国产精品美女午夜爽爽爽免费| 一个人免费播放在线视频看片| 亚洲精品国产福利片| 国产v片免费播放| 亚洲毛片在线免费观看|