50 美元復(fù)制 DeepSeek?揭開李飛飛團(tuán)隊(duì)的「省錢」的秘密
原標(biāo)題:50 美元復(fù)制 DeepSeek?揭開李飛飛團(tuán)隊(duì)的「省錢」的秘密
文章來源:愛范兒
內(nèi)容字?jǐn)?shù):3335字
低成本AI模型訓(xùn)練的突破與
近期,關(guān)于低成本訓(xùn)練高性能AI模型的新聞引發(fā)熱議,特別是“50美元復(fù)制DeepSeek R1”的說法一度沖上熱搜。本文將深入探討這一背后的,并分析低成本AI模型訓(xùn)練的未來發(fā)展趨勢。
1. “50美元復(fù)制”的
李飛飛團(tuán)隊(duì)的S1-32B模型并非從零開始訓(xùn)練,而是基于阿里巴巴的Qwen2.5-32b-Instruct模型進(jìn)行監(jiān)督微調(diào)。所謂的“50美元”成本,指的是在16塊Nvidia H100 GPU上訓(xùn)練26分鐘的費(fèi)用,并未包含其他數(shù)據(jù)、設(shè)備以及消融實(shí)驗(yàn)等成本。因此,“50美元復(fù)制”的說法存在夸大成分,更準(zhǔn)確的描述應(yīng)該是基于現(xiàn)有開源模型進(jìn)行低成本的優(yōu)化和改進(jìn)。
2. S1-32B模型的創(chuàng)新之處
S1-32B模型并非簡單地微調(diào),它引入了測試時(shí)縮放(Test-time Scaling)技術(shù),特別是“預(yù)算”方法。通過控制推理時(shí)間和算力分配,該模型能夠在多個(gè)推理任務(wù)上取得優(yōu)異的成績,甚至在某些方面超過了OpenAI的o1-preview模型。然而,它并沒有超越正式版o1和滿血版DeepSeek-R1。
3. S1-32B模型成功的關(guān)鍵因素
S1-32B模型的成功離不開精心打造的s1K數(shù)據(jù)集,以及Qwen2.5模型的優(yōu)秀基礎(chǔ)。s1K數(shù)據(jù)集包含1000個(gè)高質(zhì)量、多樣化且富有挑戰(zhàn)性的問題,極大提高了模型的泛化能力。而Qwen2.5模型的開源特性,允許研究者在其基礎(chǔ)上進(jìn)行修改和優(yōu)化,降低了研發(fā)門檻。
4. 低成本AI模型訓(xùn)練的探索并非個(gè)例
除了S1-32B模型,伯克利大學(xué)潘家怡團(tuán)隊(duì)也成功以低于30美元的成本復(fù)現(xiàn)了DeepSeek R1-Zero的關(guān)鍵技術(shù),開發(fā)出名為TinyZero的模型。這再次證明了基于開源基礎(chǔ)模型進(jìn)行低成本創(chuàng)新的可行性。
5. 開源模型的巨大作用
阿里巴巴的Qwen系列開源模型在這次中扮演了至關(guān)重要的角色。其開源代碼和頂尖性能,為全球研究者提供了寶貴的資源,促進(jìn)了低成本AI模型訓(xùn)練的蓬勃發(fā)展。Hugging Face的開源大模型榜單也顯示,Qwen模型及其衍生模型在全球范圍內(nèi)占據(jù)主導(dǎo)地位。
6. 總結(jié)
雖然“50美元復(fù)制DeepSeek R1”的說法存在偏差,但低成本訓(xùn)練高性能AI模型的探索方向具有重大意義。基于開源基礎(chǔ)模型的創(chuàng)新,降低了AI研究的門檻,為未來AI發(fā)展提供了更具包容性和可能性的路徑。這不僅推動(dòng)了AI技術(shù)的進(jìn)步,也讓更多研究者有機(jī)會(huì)參與到AI領(lǐng)域的研究中來。
聯(lián)系作者
文章來源:愛范兒
作者微信:
作者簡介:關(guān)注明日產(chǎn)品的數(shù)字潮牌