原標題:73頁,開源「后訓練」全流程!AI2發布高質量Tülu 3系列模型,拉平閉源差距,比肩GPT-4o mini
文章來源:新智元
內容字數:7241字
開頭
近期,Allen Institute for AI(AI2)推出了Tülu 3系列模型,這是一套開源的最先進語言模型,性能接近于閉源的GPT-4o-mini等模型。Tülu 3致力于推動開源模型的后訓練技術發展,提供了全面的數據、代碼和評估框架。
1. Tülu 3模型概述
Tülu 3包含多種開源資源,包括數據、代碼和訓練配方。與僅進行預訓練的模型相比,這些模型經過后訓練,能夠有效遵循人類指令,降低輸出有毒信息的風險。后訓練包括指令微調和從人類反饋中學習,以適應多樣化的下游應用。
2. 后訓練的復雜性
后訓練方法的復雜性不斷提高,涉及多輪訓練和不同的訓練算法。然而,開源模型的性能仍難以與閉源模型相媲美。Tülu 3的發布縮小了這一差距,并在LMSYS的ChatBotArena上展現了其出色的性能。
3. Tülu 3的訓練過程
Tülu 3的訓練過程分為四個階段:數據構造、監督微調、偏好調整和可驗證獎勵強化學習(RLVR)。每個階段都經過嚴格設計,以確保模型在知識召回、推理、編程等核心技能上的表現得到提升。
4. 數據構造與監督微調
在數據構造階段,研究人員專注于核心技能,并收集高質量的人工和合成數據。監督微調階段則使用精心挑選的提示和完成內容進行微調,以增強模型能力,同時保持其他技能的性能。
5. 偏好調整與RLVR
偏好調整階段采用直接偏好優化(DPO)方法,研究人員通過實驗確定最佳偏好數據的組合。RLVR階段則引入了可驗證獎勵的方法,針對特定任務進行強化學習,展現出顯著的性能改進。
6. 評估與標準化
為確保評估的可復現性與公平性,研究人員開發了統一的標準化評估套件,并開源了Open Language Model Evaluation System(OLMES)。這一系統支持廣泛的模型和任務,旨在推動開源語言模型的整體評估和開發。
結尾
Tülu 3的發布標志著開源語言模型在后訓練技術上的重要進展,提供了一個全面的框架,助力研究者和開發者在未來的工作中更有效地利用這些模型。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。