長達 73 的技術報告詳細介紹了后訓練的細節。

原標題:這才是真?開源模型!公開「后訓練」一切,性能超越Llama 3.1 Instruct
文章來源:機器之心
內容字數:7615字
開源模型新寵:Tülu 3 的崛起
根據機器之心的報道,艾倫人工智能研究所(Ai2)推出了開源模型Tülu 3,成為開源模型陣營中的新亮點。該模型目前有8B和70B兩個版本,并計劃在未來推出405B版本。最新數據顯示,Tülu 3的性能超過了Llama 3.1 Instruct的對應版本。
后訓練方法的創新
Tülu 3的技術報告長達73頁,詳細介紹了其后訓練(post-training)方法。后訓練被認為是提升模型性能的關鍵,尤其是在數學、代碼和長程規劃等領域。Ai2通過引入新的數據集和訓練流程,試圖縮小開源模型和封閉模型之間的性能差距。
四階段后訓練流程
Tülu 3的后訓練過程分為四個階段:
- 數據整理:Ai2整理了多種提示信息,并確保其不受評估數據集污染。
- 監督微調:通過選定的提示和答案結果進行監督微調,增強模型核心技能。
- 偏好微調:采用直接偏好優化(DPO)方法構建新的偏好數據集,以提升模型性能。
- 可驗證獎勵強化學習:通過可驗證的任務進行強化學習,僅在生成結果被驗證為正確時給予獎勵。
Tülu 3 的評估與表現
Ai2為Tülu 3設計了一套評估框架,展示了該模型在多個基準測試中的優異表現。尤其是在指令遵從、知識調用和數學推理等方面,Tülu 3的表現與Claude 3.5 Haiku相當,甚至在部分場景中表現更佳。
安全性與未來展望
在安全性評估中,Tülu 3相較于其他開源模型也展現出優勢。Ai2不僅發布了模型,還公開了所有數據集、訓練配方和代碼,推動開源模型社區的發展。未來,Ai2可能會基于Qwen進行Tülu模型的進一步訓練,期待更多研究者能夠在后訓練領域進行創新。
綜上所述,Tülu 3的推出標志著開源模型在性能和透明度方面的顯著進步,將為研究者提供更多的實驗基礎和靈感。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...
 
  
  
  
 
 粵公網安備 44011502001135號
 粵公網安備 44011502001135號