Skywork-Reward-V2

Skywork-Reward-V2 – 昆侖萬維開源的第二代獎勵模型系列

Skywork-Reward-V2 是昆侖萬維精心打造的第二代獎勵模型，擁有卓越的性能，并在七大主流獎勵模型評測榜單中名列前茅。該系列模型包含8個不同規模的模型，基于不同的基座模型構建，參數量從6億到80億不等。其成功得益于大規模高質量數據集 Skywork-SynPref-40M 的支撐，該數據集包含4000萬對偏好樣本。Skywork-Reward-V2 在通用偏好對齊、客觀正確性、安全性等方面表現出色，并具備強大的 Best-of-N 擴展能力和風格偏差抵抗能力。

什么是 Skywork-Reward-V2？

Skywork-Reward-V2 是昆侖萬維推出的新一代獎勵模型系列，旨在提升人工智能系統的反饋質量。該系列包含8個模型，它們基于不同的基礎模型，參數規模從6億到80億不等。這些模型在多項主流獎勵模型評測中均取得了優異成績，證明了其強大的性能。Skywork-Reward-V2 通過分析大規模數據集 Skywork-SynPref-40M（包含4000萬對偏好樣本）進行訓練，從而能夠更好地理解和預測人類的偏好。

Skywork-Reward-V2 的核心功能

精準的通用偏好對齊： 能夠準確判斷哪些回復更符合人類的一般偏好，使模型輸出更貼近人類的主觀感受，例如在對話中選擇更自然、禮貌的回答。
客觀事實的有效評估： 能夠有效識別回答的客觀準確性，對于有明確事實依據的問題，篩選出正確答案，比如在數學計算、信息查詢等任務中驗證回答的正確性。
可靠的安全性保障： 具備識別有害、不當內容的回復的能力，避免生成不安全或不適宜的內容，確保模型輸出符合道德和安全標準。
卓越的 Best-of-N 擴展能力： 面對多個候選答案時，能夠高效地從中選擇最佳答案，提升模型在多選項場景下的決策能力，例如在多輪對話中為用戶提供最佳解決方案。
強大的風格偏差抵抗： 對不同風格的回答展現出較強的適應性和公平性，不會因回答的風格差異而產生偏見，確保模型在多樣化表達中保持客觀評價。