突破邊界:AI2發(fā)布Tülu 3系列模型,逼近GPT-4o mini的巔峰體驗!
原標題:73頁,開源「后訓(xùn)練」全流程!AI2發(fā)布高質(zhì)量Tülu 3系列模型,拉平閉源差距,比肩GPT-4o mini
文章來源:新智元
內(nèi)容字數(shù):7241字
開頭
近期,Allen Institute for AI(AI2)推出了Tülu 3系列模型,這是一套開源的最先進語言模型,性能接近于閉源的GPT-4o-mini等模型。Tülu 3致力于推動開源模型的后訓(xùn)練技術(shù)發(fā)展,提供了全面的數(shù)據(jù)、代碼和評估框架。
1. Tülu 3模型概述
Tülu 3包含多種開源資源,包括數(shù)據(jù)、代碼和訓(xùn)練配方。與僅進行預(yù)訓(xùn)練的模型相比,這些模型經(jīng)過后訓(xùn)練,能夠有效遵循人類指令,降低輸出有毒信息的風(fēng)險。后訓(xùn)練包括指令微調(diào)和從人類反饋中學(xué)習(xí),以適應(yīng)多樣化的下游應(yīng)用。
2. 后訓(xùn)練的復(fù)雜性
后訓(xùn)練方法的復(fù)雜性不斷提高,涉及多輪訓(xùn)練和不同的訓(xùn)練算法。然而,開源模型的性能仍難以與閉源模型相媲美。Tülu 3的發(fā)布縮小了這一差距,并在LMSYS的ChatBotArena上展現(xiàn)了其出色的性能。
3. Tülu 3的訓(xùn)練過程
Tülu 3的訓(xùn)練過程分為四個階段:數(shù)據(jù)構(gòu)造、監(jiān)督微調(diào)、偏好調(diào)整和可驗證獎勵強化學(xué)習(xí)(RLVR)。每個階段都經(jīng)過嚴格設(shè)計,以確保模型在知識召回、推理、編程等核心技能上的表現(xiàn)得到提升。
4. 數(shù)據(jù)構(gòu)造與監(jiān)督微調(diào)
在數(shù)據(jù)構(gòu)造階段,研究人員專注于核心技能,并收集高質(zhì)量的人工和合成數(shù)據(jù)。監(jiān)督微調(diào)階段則使用精心挑選的提示和完成內(nèi)容進行微調(diào),以增強模型能力,同時保持其他技能的性能。
5. 偏好調(diào)整與RLVR
偏好調(diào)整階段采用直接偏好優(yōu)化(DPO)方法,研究人員通過實驗確定最佳偏好數(shù)據(jù)的組合。RLVR階段則引入了可驗證獎勵的方法,針對特定任務(wù)進行強化學(xué)習(xí),展現(xiàn)出顯著的性能改進。
6. 評估與標準化
為確保評估的可復(fù)現(xiàn)性與公平性,研究人員開發(fā)了統(tǒng)一的標準化評估套件,并開源了Open Language Model Evaluation System(OLMES)。這一系統(tǒng)支持廣泛的模型和任務(wù),旨在推動開源語言模型的整體評估和開發(fā)。
結(jié)尾
Tülu 3的發(fā)布標志著開源語言模型在后訓(xùn)練技術(shù)上的重要進展,提供了一個全面的框架,助力研究者和開發(fā)者在未來的工作中更有效地利用這些模型。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。