已在GitHub開源
原標題:成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾
文章來源:量子位
內容字數:5587字
斯坦福團隊僅用150元訓練出媲美OpenAI o1的推理模型s1
近日,來自斯坦福大學、華盛頓大學、艾倫人工智能實驗室等機構的研究人員,在AI教母李飛飛的帶領下,推出了一款名為s1的推理模型,其性能可與OpenAI o1和DeepSeek-R1相媲美,然而訓練成本卻低至150元人民幣左右。這一突破性成果引發了廣泛關注,其核心在于巧妙地運用模型蒸餾技術。
1. s1模型的低成本訓練秘訣:模型蒸餾
s1團隊利用阿里通義團隊的Qwen2.5-32B-Instruct作為基礎模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版,最終得到了s1模型。整個訓練過程僅需16個英偉達H100,耗時26分鐘,云計算成本不到50美元。這種極低的成本得益于模型蒸餾技術,它能夠將大型模型的知識遷移到較小的模型中,從而降低訓練成本和計算資源需求。
2. 精心設計的數據集s1K
為了訓練s1,研究團隊創建了一個包含1000個精心挑選問題的s1K數據集。這些問題涵蓋數學、科學等多個領域,并附有答案以及Gemini 2.0 Flash Thinking實驗版的思考過程。數據集的篩選過程嚴格遵循質量、難度和多樣性原則,確保數據的有效性和代表性。
3. 創新的順序Scaling方法:budget forcing
s1團隊專注于Test-time Scaling的順序Scaling方法,并提出了一種名為“budget forcing”的解碼時間干預方法。該方法通過添加“end-of-thinking token分隔符”和“Final Answer”來控制模型思考token的數量上限,并通過禁止生成“end-of-thinking token分隔符”和添加“wait”詞來控制下限,從而引導模型進行更深入的推理和迭代細化。 研究還對比了其他方法,例如條件長度控制方法和拒絕抽樣,最終證明budget forcing在控制、縮放和性能指標上表現最佳。
4. s1模型的性能表現
在AIME24、MATH500和GPQA Diamond三個推理基準測試中,s1-32B的表現與OpenAI o1和DeepSeek-R1不相上下,尤其在MATH500上取得了93.0的優異成績。研究發現,雖然budget forcing可以提高模型性能,但過度抑制思考會導致模型陷入死循環。s1模型的樣本效率極高,僅用1000個樣本訓練就達到了接近Gemini 2.0 Thinking的性能。
5. 研究結論與未來展望
s1模型的成功證明了模型蒸餾和Test-time Scaling的巨大潛力,為構建高性能、低成本的推理模型提供了新的思路。該研究也揭示了頻繁抑制思考可能導致模型陷入死循環的問題。未來,研究團隊將繼續探索更有效的Test-time Scaling方法,推動大模型技術的進一步發展。 s1模型的開源也為學術界和工業界提供了寶貴的資源。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破