成本不到150元！李飛飛等26分鐘訓(xùn)出個推理模型，媲美o1和R1，秘訣：用蒸餾

已在GitHub開源

原標(biāo)題：成本不到150元！李飛飛等26分鐘訓(xùn)出個推理模型，媲美o1和R1，秘訣：用蒸餾
文章來源：量子位
內(nèi)容字?jǐn)?shù)：5587字

斯坦福團(tuán)隊僅用150元訓(xùn)練出媲美OpenAI o1的推理模型s1

近日，來自斯坦福大學(xué)、華盛頓大學(xué)、艾倫人工智能實驗室等機(jī)構(gòu)的研究人員，在AI教母李飛飛的帶領(lǐng)下，推出了一款名為s1的推理模型，其性能可與OpenAI o1和DeepSeek-R1相媲美，然而訓(xùn)練成本卻低至150元人民幣左右。這一突破性成果引發(fā)了廣泛關(guān)注，其核心在于巧妙地運(yùn)用模型蒸餾技術(shù)。

1. s1模型的低成本訓(xùn)練秘訣：模型蒸餾

s1團(tuán)隊利用阿里通義團(tuán)隊的Qwen2.5-32B-Instruct作為基礎(chǔ)模型，通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版，最終得到了s1模型。整個訓(xùn)練過程僅需16個英偉達(dá)H100，耗時26分鐘，云計算成本不到50美元。這種極低的成本得益于模型蒸餾技術(shù)，它能夠?qū)⒋笮湍Ｐ偷闹R遷移到較小的模型中，從而降低訓(xùn)練成本和計算資源需求。

2. 精心設(shè)計的數(shù)據(jù)集s1K

為了訓(xùn)練s1，研究團(tuán)隊創(chuàng)建了一個包含1000個精心挑選問題的s1K數(shù)據(jù)集。這些問題涵蓋數(shù)學(xué)、科學(xué)等多個領(lǐng)域，并附有答案以及Gemini 2.0 Flash Thinking實驗版的思考過程。數(shù)據(jù)集的篩選過程嚴(yán)格遵循質(zhì)量、難度和多樣性原則，確保數(shù)據(jù)的有效性和代表性。

3. 創(chuàng)新的順序Scaling方法：budget forcing

s1團(tuán)隊專注于Test-time Scaling的順序Scaling方法，并提出了一種名為“budget forcing”的解碼時間干預(yù)方法。該方法通過添加“end-of-thinking token分隔符”和“Final Answer”來控制模型思考token的數(shù)量上限，并通過禁止生成“end-of-thinking token分隔符”和添加“wait”詞來控制下限，從而引導(dǎo)模型進(jìn)行更深入的推理和迭代細(xì)化。研究還對比了其他方法，例如條件長度控制方法和拒絕抽樣，最終證明budget forcing在控制、縮放和性能指標(biāo)上表現(xiàn)最佳。

4. s1模型的性能表現(xiàn)

在AIME24、MATH500和GPQA Diamond三個推理基準(zhǔn)測試中，s1-32B的表現(xiàn)與OpenAI o1和DeepSeek-R1不相上下，尤其在MATH500上取得了93.0的優(yōu)異成績。研究發(fā)現(xiàn)，雖然budget forcing可以提高模型性能，但過度抑制思考會導(dǎo)致模型陷入死循環(huán)。s1模型的樣本效率極高，僅用1000個樣本訓(xùn)練就達(dá)到了接近Gemini 2.0 Thinking的性能。

5. 研究結(jié)論與未來展望

s1模型的成功證明了模型蒸餾和Test-time Scaling的巨大潛力，為構(gòu)建高性能、低成本的推理模型提供了新的思路。該研究也揭示了頻繁抑制思考可能導(dǎo)致模型陷入死循環(huán)的問題。未來，研究團(tuán)隊將繼續(xù)探索更有效的Test-time Scaling方法，推動大模型技術(shù)的進(jìn)一步發(fā)展。 s1模型的開源也為學(xué)術(shù)界和工業(yè)界提供了寶貴的資源。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動態(tài)# 26分鐘訓(xùn)練 # 低成本AI訓(xùn)練 # 參數(shù)高效模型 # 推理模型 # 模型蒸餾

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

成本不到150元！李飛飛等26分鐘訓(xùn)出個推理模型，媲美o1和R1，秘訣：用蒸餾

已在GitHub開源

斯坦福團(tuán)隊僅用150元訓(xùn)練出媲美OpenAI o1的推理模型s1

1. s1模型的低成本訓(xùn)練秘訣：模型蒸餾

2. 精心設(shè)計的數(shù)據(jù)集s1K

3. 創(chuàng)新的順序Scaling方法：budget forcing

4. s1模型的性能表現(xiàn)

5. 研究結(jié)論與未來展望

聯(lián)系作者

10大國產(chǎn)AI芯片力挺DeepSeek！寒武紀(jì)缺席

OpenAI 開放“閹割版”推理過程，效果被 DeepSeek 碾壓成渣

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點