為什么說(shuō)DeepSeek的R1-Zero比R1更值得關(guān)注?
「推理即訓(xùn)練」的新范式可能徹底改變 AI 數(shù)據(jù)經(jīng)濟(jì)的運(yùn)作方式。
原標(biāo)題:為什么說(shuō)DeepSeek的R1-Zero比R1更值得關(guān)注?
文章來(lái)源:Founder Park
內(nèi)容字?jǐn)?shù):7151字
DeepSeek R1-Zero:強(qiáng)化學(xué)習(xí)引領(lǐng)AI推理新時(shí)代
本文總結(jié)了ARC Prize聯(lián)合創(chuàng)始人Mike Knoop在其博客中對(duì)DeepSeek新發(fā)布的推理系統(tǒng)R1和R1-Zero的分析。Knoop認(rèn)為,R1-Zero比R1更值得關(guān)注,因?yàn)樗耆蕾?lài)強(qiáng)化學(xué)習(xí)(RL),無(wú)需人類(lèi)專(zhuān)家標(biāo)注的監(jiān)督微調(diào)(SFT)。這表明在某些任務(wù)中,人類(lèi)標(biāo)注并非必要,未來(lái)可能通過(guò)純RL方法實(shí)現(xiàn)更廣泛的推理能力。
1. R1-Zero的突破性意義
DeepSeek同時(shí)發(fā)布了R1和R1-Zero兩個(gè)模型,兩者在ARC-AGI-1上的得分與OpenAI的o1系統(tǒng)低計(jì)算量版本相當(dāng)(15-20%),遠(yuǎn)超純LLM scaling的GPT-4o (5%)。R1-Zero的意義在于其完全摒棄了SFT,僅依靠RL進(jìn)行訓(xùn)練,這挑戰(zhàn)了以往對(duì)人類(lèi)標(biāo)注的依賴(lài)。雖然R1-Zero在可讀性和語(yǔ)言混雜方面存在挑戰(zhàn),但在ARC-AGI-1測(cè)試中表現(xiàn)出色,幾乎沒(méi)有發(fā)現(xiàn)不連貫性,這表明在可清晰判斷對(duì)錯(cuò)的領(lǐng)域,SFT并非必需。
2. 計(jì)算資源與AI可靠性
R1和R1-Zero的成功也揭示了投入更多計(jì)算資源可以顯著提升AI系統(tǒng)準(zhǔn)確性和可靠性的重要結(jié)論。這將增強(qiáng)用戶(hù)對(duì)AI的信任,推動(dòng)商業(yè)化應(yīng)用。目前,AI可靠性是阻礙其廣泛應(yīng)用的主要障礙,而更高的準(zhǔn)確性和可預(yù)測(cè)性錯(cuò)誤將提升用戶(hù)信任度。
3. “推理即訓(xùn)練”的新范式
文章指出,AI推理系統(tǒng)正在生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),且這些數(shù)據(jù)由用戶(hù)付費(fèi)產(chǎn)生,形成“推理即訓(xùn)練”的新范式。這將徹底改變AI數(shù)據(jù)經(jīng)濟(jì)的運(yùn)作方式,形成一個(gè)自我強(qiáng)化的循環(huán):更多用戶(hù)付費(fèi)使用,產(chǎn)生更多高質(zhì)量數(shù)據(jù),進(jìn)而訓(xùn)練出更好的模型,吸引更多用戶(hù)。這與以往購(gòu)買(mǎi)或抓取數(shù)據(jù)的方式截然不同,并可能超越人類(lèi)生成數(shù)據(jù)的預(yù)訓(xùn)練模式。
4. DeepSeek對(duì)AI領(lǐng)域的影響
DeepSeek的R1開(kāi)源,將推動(dòng)更多人探索CoT和搜索的極限,加速AGI的實(shí)現(xiàn)。R1-Zero的成功也表明,未來(lái)可能無(wú)需依賴(lài)人類(lèi)標(biāo)注就能訓(xùn)練出強(qiáng)大的AI推理系統(tǒng),這將極大地降低AI開(kāi)發(fā)的成本和門(mén)檻。文章最后指出,DeepSeek的突破推動(dòng)了科學(xué)前沿,其開(kāi)源的R1將對(duì)整個(gè)AI領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
5. 總結(jié)
DeepSeek的R1-Zero模型,憑借其純RL訓(xùn)練方式,在推理能力上取得了顯著突破,挑戰(zhàn)了傳統(tǒng)AI模型對(duì)人類(lèi)標(biāo)注的依賴(lài)。同時(shí),該模型的成功也展示了計(jì)算資源投入與AI可靠性提升之間的正相關(guān)關(guān)系,并催生了“推理即訓(xùn)練”的新數(shù)據(jù)經(jīng)濟(jì)模式。這些進(jìn)展將極大推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。
聯(lián)系作者
文章來(lái)源:Founder Park
作者微信:
作者簡(jiǎn)介:來(lái)自極客公園,專(zhuān)注與科技創(chuàng)業(yè)者聊「真問(wèn)題」。