直逼DeepSeek-R1-32B，碾壓李飛飛s1！UC伯克利等開(kāi)源全新SOTA推理模型

原標(biāo)題：直逼DeepSeek-R1-32B，碾壓李飛飛s1！UC伯克利等開(kāi)源全新SOTA推理模型
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：4601字

斯坦福等機(jī)構(gòu)開(kāi)源SOTA推理模型OpenThinker-32B

近日，斯坦福大學(xué)、UC伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布了開(kāi)源推理模型OpenThinker-32B，其性能逼近DeepSeek-R1-32B，并在多個(gè)基準(zhǔn)測(cè)試中超越了李飛飛團(tuán)隊(duì)的s1和s1.1模型。該模型的成功秘訣在于數(shù)據(jù)規(guī)模化、嚴(yán)格驗(yàn)證和模型擴(kuò)展。

1. 數(shù)據(jù)規(guī)模化與驗(yàn)證

OpenThinker-32B的訓(xùn)練數(shù)據(jù)規(guī)模為114k，遠(yuǎn)小于DeepSeek-R1-Distill-32B使用的800k數(shù)據(jù)，卻取得了幾乎相同的性能。這得益于研究團(tuán)隊(duì)對(duì)數(shù)據(jù)的精心篩選和驗(yàn)證。他們利用DeepSeek-R1模型生成17.3萬(wàn)個(gè)問(wèn)題及解答，并通過(guò)代碼執(zhí)行、LLM評(píng)判等方式進(jìn)行驗(yàn)證，最終篩選出高質(zhì)量的114k數(shù)據(jù)集（OpenThoughts-114k）。該數(shù)據(jù)集包含豐富的元數(shù)據(jù)，方便用戶(hù)進(jìn)行數(shù)據(jù)過(guò)濾、領(lǐng)域切換等操作。未經(jīng)驗(yàn)證的數(shù)據(jù)集（OpenThoughts-Unverfied-173k）也已公開(kāi)發(fā)布，供進(jìn)一步研究。

2. 模型訓(xùn)練與擴(kuò)展

研究團(tuán)隊(duì)使用LLaMa-Factory對(duì)Qwen2.5-32B-Instruct進(jìn)行了三輪微調(diào)，訓(xùn)練過(guò)程在AWS SageMaker集群和Leonardo超級(jí)計(jì)算機(jī)上分別進(jìn)行。OpenThinker-32B的訓(xùn)練耗時(shí)90小時(shí)，使用了2880個(gè)H100小時(shí)；OpenThinker-32B-Unverified的訓(xùn)練耗時(shí)30小時(shí)，使用了11520個(gè)A100小時(shí)。所有模型權(quán)重、數(shù)據(jù)集、數(shù)據(jù)生成代碼和訓(xùn)練代碼均已開(kāi)源。

3. 性能評(píng)估與開(kāi)源

研究團(tuán)隊(duì)使用開(kāi)源評(píng)估庫(kù)Evalchemy對(duì)模型進(jìn)行評(píng)估，結(jié)果顯示OpenThinker-32B在數(shù)學(xué)、代碼和科學(xué)等多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，性能直逼DeepSeek-R1-32B。項(xiàng)目主頁(yè)、Hugging Face模型地址和數(shù)據(jù)集地址均已公開(kāi)，方便研究人員進(jìn)行進(jìn)一步研究和應(yīng)用。

4. 未來(lái)展望

研究團(tuán)隊(duì)期待社區(qū)利用OpenThoughts-114k數(shù)據(jù)集和OpenThinker模型進(jìn)行強(qiáng)化學(xué)習(xí)等方面的研究，并相信數(shù)據(jù)、驗(yàn)證和模型規(guī)模的協(xié)同作用將繼續(xù)推動(dòng)開(kāi)源推理模型的發(fā)展。OpenThinker-32B的開(kāi)源，為整個(gè)AI社區(qū)提供了寶貴的資源和啟示，也標(biāo)志著開(kāi)源推理模型發(fā)展邁出了重要一步。

聯(lián)系作者

文章來(lái)源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文

# AIGC動(dòng)態(tài)# DeepSeek-R1-32B # SOTA模型 # 開(kāi)源模型 # 推理模型 # 李飛飛

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

直逼DeepSeek-R1-32B，碾壓李飛飛s1！UC伯克利等開(kāi)源全新SOTA推理模型

斯坦福等機(jī)構(gòu)開(kāi)源SOTA推理模型OpenThinker-32B

1. 數(shù)據(jù)規(guī)模化與驗(yàn)證

2. 模型訓(xùn)練與擴(kuò)展

3. 性能評(píng)估與開(kāi)源

4. 未來(lái)展望

聯(lián)系作者

開(kāi)發(fā)者，找找找丨GDC千億的潑天富貴在等你

Sam Altman巴黎AI峰會(huì)實(shí)錄 |關(guān)注AI 推理能力與AI 智能體

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？