WorldPM – 阿里Qwen團隊聯(lián)合復旦推出的偏好建模模型系列

WorldPM(World Preference Modeling)是由阿里巴巴集團的Qwen團隊與復旦大合開發(fā)的偏好建模系列模型。該模型基于1500萬條偏好數(shù)據(jù),通過大規(guī)模訓練揭示了偏好建模的可擴展性。研究發(fā)現(xiàn),在客觀領(lǐng)域,偏好模型呈現(xiàn)出明顯的冪律下降趨勢,而在主觀領(lǐng)域,由于其多維特性,難以形成單一的擴展趨勢。該項目提供了72B參數(shù)規(guī)模的基礎(chǔ)模型及多個經(jīng)過特定數(shù)據(jù)集微調(diào)的版本,例如適用于精確偏好判斷的WorldPM-72B-HelpSteer2,適合處理大規(guī)模用戶反饋的WorldPM-72B-UltraFeedback,以及專為低資源偏好建模設(shè)計的WorldPM-72B-RLHFLow。用戶可以通過Hugging Face平臺快速使用WorldPM。該模型在自然語言處理領(lǐng)域的對話系統(tǒng)和推薦系統(tǒng)等任務(wù)中展現(xiàn)出強大的偏好建模能力,為相關(guān)領(lǐng)域的發(fā)展提供了有力支持。
WorldPM是什么
WorldPM(World Preference Modeling)是阿里巴巴集團的Qwen團隊與復旦大合推出的偏好建模模型系列。它通過大規(guī)模的訓練過程,揭示了偏好模型的可擴展性。該模型基于1500萬條偏好數(shù)據(jù)進行訓練,研究發(fā)現(xiàn)偏好模型在客觀領(lǐng)域展現(xiàn)出顯著的冪律下降趨勢,而在主觀領(lǐng)域由于其多維特性,難以呈現(xiàn)單一的擴展趨勢。WorldPM項目提供了一個72B參數(shù)的基礎(chǔ)模型以及多個針對特定數(shù)據(jù)集進行微調(diào)的版本,能夠滿足不同應(yīng)用場景的需求。
WorldPM的主要功能
- 偏好建模:通過學習人類的偏好模式,形成統(tǒng)一的偏好表示。
- 提升泛化能力:增強模型在不同數(shù)據(jù)集上的表現(xiàn)。
- 作為基礎(chǔ)模型:為偏好微調(diào)提供基礎(chǔ),提升模型的整體性能。
- 增強魯棒性:有效識別和處理錯誤或不完整的信息。
WorldPM的技術(shù)原理
- 偏好數(shù)據(jù)收集與處理:WorldPM通過從公共論壇(如StackExchange、Reddit等)收集用戶生成的偏好數(shù)據(jù),利用用戶對不同回答的投票機制自然生成偏好對。
- 大規(guī)模訓練與規(guī)模定律:WorldPM借鑒了語言建模中的規(guī)模定律,模型性能隨著參數(shù)規(guī)模和訓練數(shù)據(jù)量的增加而提升。通過在不同規(guī)模的模型(從1.5B到72B參數(shù))上進行訓練,WorldPM能夠探索偏好建模的規(guī)模擴展?jié)摿Α嶒灡砻鳎趯剐院涂陀^性評估任務(wù)中,模型性能隨著訓練數(shù)據(jù)和模型規(guī)模的增加顯著提升。
- 偏好建模框架:WorldPM采用二元偏好對的建模框架。對于每對偏好樣本,模型計算每個回答的獎勵分數(shù),并基于Bradley-Terry模型的BT損失函數(shù)進行優(yōu)化,學習偏好模式。
- 風格偏好分析與控制:為了解決主觀偏好評估中的風格偏好問題,模型引入了風格偏好分析和控制機制。通過分離風格特征(如文本長度、Markdown格式等)與內(nèi)容特征,模型能夠更準確地評估偏好,減少風格因素對評估結(jié)果的影響。
- 模型擴展與微調(diào):WorldPM不僅可以直接應(yīng)用于偏好評估,還可以作為其他模型的初始化基礎(chǔ),進行進一步的偏好微調(diào)。通過在不同規(guī)模的人類偏好數(shù)據(jù)集上進行微調(diào),WorldPM能夠顯著提升模型性能,特別是在數(shù)據(jù)有限的情況下。
WorldPM的項目地址
- GitHub倉庫:https://github.com/QwenLM/WorldPM
- HuggingFace模型庫:https://huggingface.co/Qwen/WorldPM-72B
- arXiv技術(shù)論文:https://arxiv.org/pdf/2505.10527
WorldPM的應(yīng)用場景
- 語言生成優(yōu)化:使AI生成的文本更加自然,符合人類的偏好,提高機器人的回復質(zhì)量。
- 個性化推薦:根據(jù)用戶的偏好推薦內(nèi)容,如文章、視頻或音樂,以提高推薦的準確性和用戶滿意度。
- 智能客服改進:幫助智能客服更好地理解用戶需求,生成更符合用戶期望的回復,從而提升用戶體驗。
- 內(nèi)容審核與安全:識別并過濾錯誤或有害信息,確保內(nèi)容的安全性與可靠性。
- 多模態(tài)應(yīng)用:擴展到圖像和視頻等多模態(tài)內(nèi)容的偏好建模,優(yōu)化內(nèi)容生成與審核的效率。

粵公網(wǎng)安備 44011502001135號