<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

        AIGC動態7個月前發布 量子位
        282 0 0

        已在GitHub開源

        成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

        原標題:成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾
        文章來源:量子位
        內容字數:5587字

        斯坦福團隊僅用150元訓練出媲美OpenAI o1的推理模型s1

        近日,來自斯坦福大學、華盛頓大學、艾倫人工智能實驗室等機構的研究人員,在AI教母李飛飛的帶領下,推出了一款名為s1的推理模型,其性能可與OpenAI o1和DeepSeek-R1相媲美,然而訓練成本卻低至150元人民幣左右。這一突破性成果引發了廣泛關注,其核心在于巧妙地運用模型蒸餾技術。

        1. s1模型的低成本訓練秘訣:模型蒸餾

        s1團隊利用阿里通義團隊的Qwen2.5-32B-Instruct作為基礎模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版,最終得到了s1模型。整個訓練過程僅需16個英偉達H100,耗時26分鐘,云計算成本不到50美元。這種極低的成本得益于模型蒸餾技術,它能夠將大型模型的知識遷移到較小的模型中,從而降低訓練成本和計算資源需求。

        2. 精心設計的數據集s1K

        為了訓練s1,研究團隊創建了一個包含1000個精心挑選問題的s1K數據集。這些問題涵蓋數學、科學等多個領域,并附有答案以及Gemini 2.0 Flash Thinking實驗版的思考過程。數據集的篩選過程嚴格遵循質量、難度和多樣性原則,確保數據的有效性和代表性。

        3. 創新的順序Scaling方法:budget forcing

        s1團隊專注于Test-time Scaling的順序Scaling方法,并提出了一種名為“budget forcing”的解碼時間干預方法。該方法通過添加“end-of-thinking token分隔符”和“Final Answer”來控制模型思考token的數量上限,并通過禁止生成“end-of-thinking token分隔符”和添加“wait”詞來控制下限,從而引導模型進行更深入的推理和迭代細化。 研究還對比了其他方法,例如條件長度控制方法和拒絕抽樣,最終證明budget forcing在控制、縮放和性能指標上表現最佳。

        4. s1模型的性能表現

        在AIME24、MATH500和GPQA Diamond三個推理基準測試中,s1-32B的表現與OpenAI o1和DeepSeek-R1不相上下,尤其在MATH500上取得了93.0的優異成績。研究發現,雖然budget forcing可以提高模型性能,但過度抑制思考會導致模型陷入死循環。s1模型的樣本效率極高,僅用1000個樣本訓練就達到了接近Gemini 2.0 Thinking的性能。

        5. 研究結論與未來展望

        s1模型的成功證明了模型蒸餾和Test-time Scaling的巨大潛力,為構建高性能、低成本的推理模型提供了新的思路。該研究也揭示了頻繁抑制思考可能導致模型陷入死循環的問題。未來,研究團隊將繼續探索更有效的Test-time Scaling方法,推動大模型技術的進一步發展。 s1模型的開源也為學術界和工業界提供了寶貴的資源。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产精品免费看香蕉| 18禁在线无遮挡免费观看网站| 日韩精品内射视频免费观看| 中文字幕亚洲一区二区三区| 男男黄GAY片免费网站WWW| 精品无码国产污污污免费| 亚洲AV无码专区在线观看成人| 日本大片在线看黄a∨免费| 亚洲AV无码专区亚洲AV桃| 免费一级毛片正在播放| 一级黄色免费毛片| 亚洲乱码日产一区三区| 无码少妇精品一区二区免费动态| 亚洲av网址在线观看| 黄网站色在线视频免费观看| 亚洲一本之道高清乱码| 破了亲妺妺的处免费视频国产| 国产精品亚洲专一区二区三区| 亚洲电影日韩精品 | 国产婷婷高清在线观看免费| 国产精品亚洲专一区二区三区| 亚洲精品无码av天堂| 国产精品免费看久久久 | 国产AV无码专区亚洲精品| 91成人在线免费视频| 国产精品高清视亚洲精品| 在线免费观看一区二区三区| 免费在线观看一区| 亚洲成AV人片在线观看ww| 成年网站免费视频A在线双飞| 亚洲av中文无码乱人伦在线观看 | 拍拍拍又黄又爽无挡视频免费| 香港特级三A毛片免费观看| 在线a亚洲v天堂网2019无码| 中文字幕免费在线| 亚洲第一综合天堂另类专| 亚洲天堂免费在线视频| 三年片在线观看免费观看大全一| 亚洲国产理论片在线播放| 亚洲AV蜜桃永久无码精品| 久久免费观看国产精品|