原標題:直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開源全新SOTA推理模型
文章來源:新智元
內容字數:4601字
斯坦福等機構開源SOTA推理模型OpenThinker-32B
近日,斯坦福大學、UC伯克利、華盛頓大學等機構聯合發布了開源推理模型OpenThinker-32B,其性能逼近DeepSeek-R1-32B,并在多個基準測試中超越了李飛飛團隊的s1和s1.1模型。該模型的成功秘訣在于數據規?;?、嚴格驗證和模型擴展。
1. 數據規模化與驗證
OpenThinker-32B的訓練數據規模為114k,遠小于DeepSeek-R1-Distill-32B使用的800k數據,卻取得了幾乎相同的性能。這得益于研究團隊對數據的精心篩選和驗證。他們利用DeepSeek-R1模型生成17.3萬個問題及解答,并通過代碼執行、LLM評判等方式進行驗證,最終篩選出高質量的114k數據集(OpenThoughts-114k)。該數據集包含豐富的元數據,方便用戶進行數據過濾、領域切換等操作。未經驗證的數據集(OpenThoughts-Unverfied-173k)也已公開發布,供進一步研究。
2. 模型訓練與擴展
研究團隊使用LLaMa-Factory對Qwen2.5-32B-Instruct進行了三輪微調,訓練過程在AWS SageMaker集群和Leonardo超級計算機上分別進行。OpenThinker-32B的訓練耗時90小時,使用了2880個H100小時;OpenThinker-32B-Unverified的訓練耗時30小時,使用了11520個A100小時。所有模型權重、數據集、數據生成代碼和訓練代碼均已開源。
3. 性能評估與開源
研究團隊使用開源評估庫Evalchemy對模型進行評估,結果顯示OpenThinker-32B在數學、代碼和科學等多個基準測試中表現優異,性能直逼DeepSeek-R1-32B。項目主頁、Hugging Face模型地址和數據集地址均已公開,方便研究人員進行進一步研究和應用。
4. 未來展望
研究團隊期待社區利用OpenThoughts-114k數據集和OpenThinker模型進行強化學習等方面的研究,并相信數據、驗證和模型規模的協同作用將繼續推動開源推理模型的發展。OpenThinker-32B的開源,為整個AI社區提供了寶貴的資源和啟示,也標志著開源推理模型發展邁出了重要一步。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。