突破極限!全新后訓(xùn)練模型震撼發(fā)布,性能全面超越Llama 3.1 Instruct!
長(zhǎng)達(dá) 73 的技術(shù)報(bào)告詳細(xì)介紹了后訓(xùn)練的細(xì)節(jié)。
原標(biāo)題:這才是真?開(kāi)源模型!公開(kāi)「后訓(xùn)練」一切,性能超越Llama 3.1 Instruct
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7615字
開(kāi)源模型新寵:Tülu 3 的崛起
根據(jù)機(jī)器之心的報(bào)道,艾倫人工智能研究所(Ai2)推出了開(kāi)源模型Tülu 3,成為開(kāi)源模型陣營(yíng)中的新亮點(diǎn)。該模型目前有8B和70B兩個(gè)版本,并計(jì)劃在未來(lái)推出405B版本。最新數(shù)據(jù)顯示,Tülu 3的性能超過(guò)了Llama 3.1 Instruct的對(duì)應(yīng)版本。
后訓(xùn)練方法的創(chuàng)新
Tülu 3的技術(shù)報(bào)告長(zhǎng)達(dá)73頁(yè),詳細(xì)介紹了其后訓(xùn)練(post-training)方法。后訓(xùn)練被認(rèn)為是提升模型性能的關(guān)鍵,尤其是在數(shù)學(xué)、代碼和長(zhǎng)程規(guī)劃等領(lǐng)域。Ai2通過(guò)引入新的數(shù)據(jù)集和訓(xùn)練流程,試圖縮小開(kāi)源模型和封閉模型之間的性能差距。
四階段后訓(xùn)練流程
Tülu 3的后訓(xùn)練過(guò)程分為四個(gè)階段:
- 數(shù)據(jù)整理:Ai2整理了多種提示信息,并確保其不受評(píng)估數(shù)據(jù)集污染。
- 監(jiān)督微調(diào):通過(guò)選定的提示和答案結(jié)果進(jìn)行監(jiān)督微調(diào),增強(qiáng)模型核心技能。
- 偏好微調(diào):采用直接偏好優(yōu)化(DPO)方法構(gòu)建新的偏好數(shù)據(jù)集,以提升模型性能。
- 可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí):通過(guò)可驗(yàn)證的任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí),僅在生成結(jié)果被驗(yàn)證為正確時(shí)給予獎(jiǎng)勵(lì)。
Tülu 3 的評(píng)估與表現(xiàn)
Ai2為T(mén)ülu 3設(shè)計(jì)了一套評(píng)估框架,展示了該模型在多個(gè)基準(zhǔn)測(cè)試中的優(yōu)異表現(xiàn)。尤其是在指令遵從、知識(shí)調(diào)用和數(shù)學(xué)推理等方面,Tülu 3的表現(xiàn)與Claude 3.5 Haiku相當(dāng),甚至在部分場(chǎng)景中表現(xiàn)更佳。
安全性與未來(lái)展望
在安全性評(píng)估中,Tülu 3相較于其他開(kāi)源模型也展現(xiàn)出優(yōu)勢(shì)。Ai2不僅發(fā)布了模型,還公開(kāi)了所有數(shù)據(jù)集、訓(xùn)練配方和代碼,推動(dòng)開(kāi)源模型社區(qū)的發(fā)展。未來(lái),Ai2可能會(huì)基于Qwen進(jìn)行Tülu模型的進(jìn)一步訓(xùn)練,期待更多研究者能夠在后訓(xùn)練領(lǐng)域進(jìn)行創(chuàng)新。
綜上所述,Tülu 3的推出標(biāo)志著開(kāi)源模型在性能和透明度方面的顯著進(jìn)步,將為研究者提供更多的實(shí)驗(yàn)基礎(chǔ)和靈感。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)