PRMs整體表現堪憂,開源不如閉源
原標題:揭秘大模型強推理能力幕后功臣“缺陷”,過程級獎勵模型新基準來了
文章來源:量子位
內容字數:5899字
復旦大學等提出PRMBench:強推理模型的“全方位體檢”
1. **引言:** 復旦大學、蘇州大學和上海AI Lab等機構聯合推出了PRMBench,一個用于評估過程級獎勵模型 (PRMs) 性能的基準數據集。PRMs 作為強推理模型 (如o1) 的“幕后功臣”,負責評估推理過程的每一步是否正確有效,引導LLMs的學習方向。然而,目前缺乏對PRMs進行細粒度錯誤檢測能力評估的有效工具。PRMBench的出現,旨在填補這一空白,推動PRMs的改進。
2. **PRMBench 的設計:** PRMBench包含6216個精心設計的問題和83456個步驟級標簽,遠超以往只關注最終結果正確性的評估方法。它從簡潔性、合理性和敏感性三個維度,細分為九個子類別,對PRMs進行多維度、多層次的評估。這使得PRMBench能夠更全面地識別PRMs的潛在缺陷,例如冗余步驟、部分正確步驟、完全錯誤步驟等。
3. **主要發現:** 研究人員對15個代表性模型進行了測試,包括開源PRMs和以強大通用語言模型為Critic Model的模型。實驗結果顯示:
3.1 **整體表現不佳:** 即使是表現最佳的Gemini-2-Thinking,其PRMScore也只有68.8,勉強高于隨機猜測的50.0。這表明現有PRMs在多步推理過程評估方面仍有巨大提升空間。
3.2 **開源PRMs表現更弱:** 開源PRMs的平均PRMScore僅為50.1,部分甚至不如隨機猜測,暴露了其可靠性和潛在訓練偏差問題。
3.3 **“簡潔性”成最大挑戰:** 在簡潔性維度上,即使是表現較好的ReasonEval-34B,其PRMScore也驟降至51.5,說明PRMs在識別冗余步驟方面能力不足。
3.4 **“陽性偏好”現象顯著:** 部分模型傾向于給出正面評價,難以區分正確和錯誤步驟。
3.5 **錯誤位置影響評估:** PRMs對錯誤步驟的判斷準確率會隨著錯誤步驟位置的后移而提高。
4. **PRMBench 的構建過程:** 研究人員基于PRM800K數據集,篩選出完全正確的問題、答案和解題步驟作為元數據。然后,利用LLMs(特別是GPT-4)引入各種細粒度的錯誤,并經過嚴格的人工審查,確保數據質量。最終構建了包含三大評測主題(簡潔性、合理性和敏感性)的數據集。
5. **總結:** PRMBench并非簡單的升級版評估數據集,而是一套全面的“體檢方案”,它揭示了現有PRMs的諸多不足,為PRMs的未來發展提供了重要的參考依據。其發布提醒我們重新審視現有PRMs的能力邊界,并為推動PRMs評估和發展研究奠定了堅實基礎。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破