復雜的推理能力可以通過少量精心設計的樣本達成。
原標題:開源22萬條DeepSeek R1的高質量數據!你也能復現DeepSeek了
文章來源:機器之心
內容字數:9264字
DeepSeek 引發的全球復現熱潮與 OpenR1 項目進展
DeepSeek大模型的出現,打破了中國AI技術長期落后的局面,引發了全球范圍內的復現熱潮。雖然DeepSeek-R1并非完全開源,但其技術報告為復現提供了指導,許多團隊已取得成功。其中,Hugging Face領導的Open R1項目尤為引人注目,旨在完全開放復現DeepSeek-R1,并補齊所有未公開的技術細節。
1. OpenR1 項目的快速進展
Open R1項目啟動幾周內便取得了顯著進展,其GitHub倉庫已公開訓練與評估代碼及合成數據生成器。近期,他們發布了OpenR1-Math-220k數據集,填補了DeepSeek R1未公開的合成數據缺口。該數據集包含22萬條高質量的數學推理軌跡,可用于訓練更小模型,達到與DeepSeek R1相當的性能。
2. OpenR1-Math-220k 數據集的特點
OpenR1-Math-220k數據集基于DeepSeek R1生成,擁有以下特點:
- 基于NuminaMath 1.5:專注于數學推理公式。
- 高效生成:利用本地計算集群,每天可生成18萬條推理軌跡。
- 自動過濾:通過數學驗證和Llama-3.3-70B-Instruct模型篩選,確保數據質量。
- 數據集劃分:分為default (94k問題)和extended (131k問題)兩個部分。
在該數據集上訓練的Qwen-7B-Math-Instruct模型,性能與DeepSeek-Distill-Qwen-7B相當。
3. 數據集的生成和過濾過程
OpenR1團隊利用DeepSeek R1為40萬個問題生成答案,并設置了嚴格的過濾機制:首先,通過數學驗證自動篩選正確答案;其次,利用Llama-3.3-70B-Instruct模型作為“判官”,進一步篩選出因格式問題被誤判的正確答案;最后,嘗試使用獎勵模型進行最終篩選,但效果并不理想。
4. OpenR1 訓練模型與 DeepSeek 的性能對比
OpenR1在OpenR1-Math-220k數據集上對Qwen2.5-Math-Instruct進行微調后,其性能與DeepSeek-Distill-Qwen-7B差距不大。然而,AIME 2025競賽中,各種模型的數學能力普遍下降,這可能與測試數據泄露導致的過擬合有關。
5. 對未來研究方向的啟示
OpenR1項目以及其他研究成果表明:
- 少量高質量數據即可實現高級推理能力:s1K和LIMO數據集都證明了這一點。
- CoT長度的優化:預算和獎勵塑造等技術可以有效提升模型性能。
- 探索更有效的推理方法:例如,利用循環語言模型在潛在空間中進行隱式推理,提高計算效率。
OpenR1項目仍在持續進行,未來將進一步探索GRPO等技術,并期待更多突破性進展。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺