直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開(kāi)源全新SOTA推理模型
原標(biāo)題:直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開(kāi)源全新SOTA推理模型
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):4601字
斯坦福等機(jī)構(gòu)開(kāi)源SOTA推理模型OpenThinker-32B
近日,斯坦福大學(xué)、UC伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布了開(kāi)源推理模型OpenThinker-32B,其性能逼近DeepSeek-R1-32B,并在多個(gè)基準(zhǔn)測(cè)試中超越了李飛飛團(tuán)隊(duì)的s1和s1.1模型。該模型的成功秘訣在于數(shù)據(jù)規(guī)?;?、嚴(yán)格驗(yàn)證和模型擴(kuò)展。
1. 數(shù)據(jù)規(guī)?;c驗(yàn)證
OpenThinker-32B的訓(xùn)練數(shù)據(jù)規(guī)模為114k,遠(yuǎn)小于DeepSeek-R1-Distill-32B使用的800k數(shù)據(jù),卻取得了幾乎相同的性能。這得益于研究團(tuán)隊(duì)對(duì)數(shù)據(jù)的精心篩選和驗(yàn)證。他們利用DeepSeek-R1模型生成17.3萬(wàn)個(gè)問(wèn)題及解答,并通過(guò)代碼執(zhí)行、LLM評(píng)判等方式進(jìn)行驗(yàn)證,最終篩選出高質(zhì)量的114k數(shù)據(jù)集(OpenThoughts-114k)。該數(shù)據(jù)集包含豐富的元數(shù)據(jù),方便用戶(hù)進(jìn)行數(shù)據(jù)過(guò)濾、領(lǐng)域切換等操作。未經(jīng)驗(yàn)證的數(shù)據(jù)集(OpenThoughts-Unverfied-173k)也已公開(kāi)發(fā)布,供進(jìn)一步研究。
2. 模型訓(xùn)練與擴(kuò)展
研究團(tuán)隊(duì)使用LLaMa-Factory對(duì)Qwen2.5-32B-Instruct進(jìn)行了三輪微調(diào),訓(xùn)練過(guò)程在A(yíng)WS SageMaker集群和Leonardo超級(jí)計(jì)算機(jī)上分別進(jìn)行。OpenThinker-32B的訓(xùn)練耗時(shí)90小時(shí),使用了2880個(gè)H100小時(shí);OpenThinker-32B-Unverified的訓(xùn)練耗時(shí)30小時(shí),使用了11520個(gè)A100小時(shí)。所有模型權(quán)重、數(shù)據(jù)集、數(shù)據(jù)生成代碼和訓(xùn)練代碼均已開(kāi)源。
3. 性能評(píng)估與開(kāi)源
研究團(tuán)隊(duì)使用開(kāi)源評(píng)估庫(kù)Evalchemy對(duì)模型進(jìn)行評(píng)估,結(jié)果顯示OpenThinker-32B在數(shù)學(xué)、代碼和科學(xué)等多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,性能直逼DeepSeek-R1-32B。項(xiàng)目主頁(yè)、Hugging Face模型地址和數(shù)據(jù)集地址均已公開(kāi),方便研究人員進(jìn)行進(jìn)一步研究和應(yīng)用。
4. 未來(lái)展望
研究團(tuán)隊(duì)期待社區(qū)利用OpenThoughts-114k數(shù)據(jù)集和OpenThinker模型進(jìn)行強(qiáng)化學(xué)習(xí)等方面的研究,并相信數(shù)據(jù)、驗(yàn)證和模型規(guī)模的協(xié)同作用將繼續(xù)推動(dòng)開(kāi)源推理模型的發(fā)展。OpenThinker-32B的開(kāi)源,為整個(gè)AI社區(qū)提供了寶貴的資源和啟示,也標(biāo)志著開(kāi)源推理模型發(fā)展邁出了重要一步。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。