離譜!大學(xué)生用50美元零花錢(qián)訓(xùn)練出媲美OpenAI的AI模型,巨頭的噩夢(mèng)?

原標(biāo)題:離譜!大學(xué)生用50美元零花錢(qián)訓(xùn)練出媲美OpenAI的AI模型,巨頭的噩夢(mèng)?
文章來(lái)源:AI范兒
內(nèi)容字?jǐn)?shù):2391字
斯坦福與華盛頓大學(xué)AI研究人員低成本復(fù)制頂尖推理模型
1. **低成本高性能AI模型s1誕生:** 斯坦福大學(xué)和華盛頓大學(xué)的研究人員僅花費(fèi)不到50美元的云計(jì)算費(fèi)用,就訓(xùn)練出一個(gè)名為s1的AI推理模型,其性能可與OpenAI的o1和DeepSeek的R1等頂尖模型媲美。該模型及其相關(guān)數(shù)據(jù)和代碼已開(kāi)源。
2. **模型訓(xùn)練方法:蒸餾技術(shù)與監(jiān)督微調(diào):** s1模型的訓(xùn)練采用蒸餾技術(shù),即學(xué)習(xí)另一個(gè)AI模型(谷歌的Gemini 2.0 Flash Thinking Experimental)的答案和推理過(guò)程。研究人員使用了監(jiān)督微調(diào)(SFT)方法,成本遠(yuǎn)低于DeepSeek訓(xùn)練R1時(shí)使用的大規(guī)模強(qiáng)化學(xué)習(xí)方法。SFT通過(guò)明確指示AI模型模仿數(shù)據(jù)集中的特定行為來(lái)進(jìn)行訓(xùn)練,使用了僅包含1000個(gè)問(wèn)題的數(shù)據(jù)集。
3. **成本優(yōu)勢(shì)與技術(shù)壁壘:** s1模型的低成本訓(xùn)練引發(fā)了人們對(duì)AI模型商品化的思考。如此低廉的成本復(fù)制出價(jià)值數(shù)百萬(wàn)美元的模型,挑戰(zhàn)了現(xiàn)有的技術(shù)壁壘,也讓大型AI實(shí)驗(yàn)室感到不滿(mǎn),OpenAI甚至指控DeepSeek不正當(dāng)收集數(shù)據(jù)。
4. **“測(cè)試時(shí)擴(kuò)展”的巧妙方法:** s1團(tuán)隊(duì)的目標(biāo)是實(shí)現(xiàn)強(qiáng)大的推理性能和“測(cè)試時(shí)擴(kuò)展”,即讓模型有更多思考時(shí)間。他們通過(guò)在s1推理過(guò)程中加入“wait”這個(gè)詞,巧妙地延長(zhǎng)了模型的思考時(shí)間,從而提高了答案準(zhǔn)確性。
5. **資源消耗與未來(lái)展望:** s1的訓(xùn)練使用了16個(gè)Nvidia H100 GPU,耗時(shí)不到30分鐘,租用這些算力成本約為20美元。雖然蒸餾技術(shù)能廉價(jià)復(fù)制AI模型能力,但它并不能創(chuàng)造出比現(xiàn)有模型更優(yōu)秀的模型。大型AI實(shí)驗(yàn)室在AI基礎(chǔ)設(shè)施上的巨額投資,對(duì)于推動(dòng)AI創(chuàng)新仍然至關(guān)重要。
6. **谷歌Gemini 2.0的使用與限制:** 研究人員利用谷歌免費(fèi)開(kāi)放的Gemini 2.0 Flash Thinking Experimental模型進(jìn)行蒸餾,但谷歌的使用條款禁止對(duì)其模型進(jìn)行逆向工程以開(kāi)發(fā)競(jìng)爭(zhēng)。這引發(fā)了關(guān)于AI模型開(kāi)源與商業(yè)化之間平衡的討論。
7. **s1模型的開(kāi)源意義:** s1模型的開(kāi)源,為AI研究人員提供了寶貴的學(xué)習(xí)資源,降低了AI模型開(kāi)發(fā)的門(mén)檻,促進(jìn)了AI領(lǐng)域的創(chuàng)新和發(fā)展。但是,也需要關(guān)注其潛在的風(fēng)險(xiǎn),例如模型被濫用。
8. **總結(jié):** s1模型的成功證明了通過(guò)蒸餾技術(shù)和監(jiān)督微調(diào),可以低成本地訓(xùn)練出性能強(qiáng)大的AI推理模型。這不僅挑戰(zhàn)了現(xiàn)有的技術(shù)壁壘,也為AI領(lǐng)域未來(lái)的發(fā)展帶來(lái)了新的可能性,但同時(shí)也需要考慮其潛在的風(fēng)險(xiǎn)和倫理問(wèn)題。
聯(lián)系作者
文章來(lái)源:AI范兒
作者微信:
作者簡(jiǎn)介:專(zhuān)注于探索 AIGC,發(fā)掘人工智能的樂(lè)趣。

粵公網(wǎng)安備 44011502001135號(hào)