WorldPM

WorldPM – 阿里Qwen團隊聯合復旦推出的偏好建模模型系列

WorldPM

WorldPM（World Preference Modeling）是由阿里巴巴集團的Qwen團隊與復旦大合開發的偏好建模系列模型。該模型基于1500萬條偏好數據，通過大規模訓練揭示了偏好建模的可擴展性。研究發現，在客觀領域，偏好模型呈現出明顯的冪律下降趨勢，而在主觀領域，由于其多維特性，難以形成單一的擴展趨勢。該項目提供了72B參數規模的基礎模型及多個經過特定數據集微調的版本，例如適用于精確偏好判斷的WorldPM-72B-HelpSteer2，適合處理大規模用戶反饋的WorldPM-72B-UltraFeedback，以及專為低資源偏好建模設計的WorldPM-72B-RLHFLow。用戶可以通過Hugging Face平臺快速使用WorldPM。該模型在自然語言處理領域的對話系統和推薦系統等任務中展現出強大的偏好建模能力，為相關領域的發展提供了有力支持。

WorldPM是什么

WorldPM（World Preference Modeling）是阿里巴巴集團的Qwen團隊與復旦大合推出的偏好建模模型系列。它通過大規模的訓練過程，揭示了偏好模型的可擴展性。該模型基于1500萬條偏好數據進行訓練，研究發現偏好模型在客觀領域展現出顯著的冪律下降趨勢，而在主觀領域由于其多維特性，難以呈現單一的擴展趨勢。WorldPM項目提供了一個72B參數的基礎模型以及多個針對特定數據集進行微調的版本，能夠滿足不同應用場景的需求。

WorldPM的主要功能

偏好建模：通過學習人類的偏好模式，形成統一的偏好表示。
提升泛化能力：增強模型在不同數據集上的表現。
作為基礎模型：為偏好微調提供基礎，提升模型的整體性能。
增強魯棒性：有效識別和處理錯誤或不完整的信息。

WorldPM的技術原理

偏好數據收集與處理：WorldPM通過從公共論壇（如StackExchange、Reddit等）收集用戶生成的偏好數據，利用用戶對不同回答的投票機制自然生成偏好對。
大規模訓練與規模定律：WorldPM借鑒了語言建模中的規模定律，模型性能隨著參數規模和訓練數據量的增加而提升。通過在不同規模的模型（從1.5B到72B參數）上進行訓練，WorldPM能夠探索偏好建模的規模擴展潛力。實驗表明，在對抗性和客觀性評估任務中，模型性能隨著訓練數據和模型規模的增加顯著提升。
偏好建模框架：WorldPM采用二元偏好對的建模框架。對于每對偏好樣本，模型計算每個回答的獎勵分數，并基于Bradley-Terry模型的BT損失函數進行優化，學習偏好模式。
風格偏好分析與控制：為了解決主觀偏好評估中的風格偏好問題，模型引入了風格偏好分析和控制機制。通過分離風格特征（如文本長度、Markdown格式等）與內容特征，模型能夠更準確地評估偏好，減少風格因素對評估結果的影響。
模型擴展與微調：WorldPM不僅可以直接應用于偏好評估，還可以作為其他模型的初始化基礎，進行進一步的偏好微調。通過在不同規模的人類偏好數據集上進行微調，WorldPM能夠顯著提升模型性能，特別是在數據有限的情況下。