原標題:超越DeepSeek V3!Ai2再祭開源殺器Tülu 3,強化學習打破性能瓶頸
文章來源:新智元
內容字數:4026字
艾倫人工智能研究所發布全新開源大模型Tülu 3 405B
本文總結了艾倫人工智能研究所(Ai2)發布的全新開源大模型Tülu 3 405B 的關鍵信息。該模型在多個基準測試中表現出色,甚至超越了DeepSeek v3和GPT-4o等模型。
1. Tülu 3系列模型的性能突破
Ai2此前已發布Tülu 3 8B和70B版本,其性能已超越同等參數規模的Llama 3.1 Instruct版本。最新發布的Tülu 3 405B在多個標準基準測試中,實現了與DeepSeek v3和GPT-4o相當或更優的性能,并超越了其他同等參數規模的開源模型,如Llama 3.1 405B Instruct和Nous Hermes 3 405B。 雖然在線體驗版在一些簡單問題上表現欠佳,但在需要推理的復雜問題上展現了正確的解決思路。
2. Tülu 3的完整開源與訓練方法
與許多其他模型不同,Ai2 罕見地完整公開了Tülu 3 的訓練數據、代碼和方法,這對于推動開源大模型的發展具有重要意義。 其訓練過程包括四個階段:1) 精心策劃和合成式提示;2) 監督微調,優化核心技能并保證模型安全性;3) 偏好微調,利用GPT-4o對不同模型的回答進行評估;4) 可驗證獎勵強化學習(RLVR),針對可驗證結果的任務(如數學問題)進行強化學習。
3. 可驗證獎勵強化學習(RLVR) 的作用
Tülu 3 使用了創新的RLVR方法,該方法在更大規模模型(如405B)上對數學性能的提升更為顯著。這可能是因為大型模型更適合處理需要專門數據的復雜任務。 RLVR 通過明確判斷問題是否完成來更新策略函數,從而提升模型性能。
4. 訓練過程與資源
Tülu 3 405B 的訓練使用了32個節點(256個GPU),并采用了vLLM進行模型部署。由于計算資源的限制,訓練時間受到限制,但結果顯示模型性能仍有提升空間。
5. Tülu 3 的開源貢獻
Tülu 3 項目完全開源了數據、評估方法、訓練代碼和開發配方,為其他研究者提供了寶貴的資源。 這標志著開放后訓練研究的一個新的里程碑,為未來大模型的研究和發展提供了重要的參考價值,也為開發者提供了可借鑒的訓練方法。
6. 訪問途徑
Tülu 3 8B和70B版本已支持ollama下載,方便用戶本地部署使用,405B版本也預計會很快上線。 論文和代碼可在Ai2的GitHub倉庫和Arxiv上找到。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。