<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開(kāi)源全新SOTA推理模型

        AIGC動(dòng)態(tài)3個(gè)月前發(fā)布 新智元
        425 0 0

        直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開(kāi)源全新SOTA推理模型

        原標(biāo)題:直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開(kāi)源全新SOTA推理模型
        文章來(lái)源:新智元
        內(nèi)容字?jǐn)?shù):4601字

        斯坦福等機(jī)構(gòu)開(kāi)源SOTA推理模型OpenThinker-32B

        近日,斯坦福大學(xué)、UC伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布了開(kāi)源推理模型OpenThinker-32B,其性能逼近DeepSeek-R1-32B,并在多個(gè)基準(zhǔn)測(cè)試中超越了李飛飛團(tuán)隊(duì)的s1和s1.1模型。該模型的成功秘訣在于數(shù)據(jù)規(guī)?;?、嚴(yán)格驗(yàn)證和模型擴(kuò)展。

        1. 數(shù)據(jù)規(guī)?;c驗(yàn)證

        OpenThinker-32B的訓(xùn)練數(shù)據(jù)規(guī)模為114k,遠(yuǎn)小于DeepSeek-R1-Distill-32B使用的800k數(shù)據(jù),卻取得了幾乎相同的性能。這得益于研究團(tuán)隊(duì)對(duì)數(shù)據(jù)的精心篩選和驗(yàn)證。他們利用DeepSeek-R1模型生成17.3萬(wàn)個(gè)問(wèn)題及解答,并通過(guò)代碼執(zhí)行、LLM評(píng)判等方式進(jìn)行驗(yàn)證,最終篩選出高質(zhì)量的114k數(shù)據(jù)集(OpenThoughts-114k)。該數(shù)據(jù)集包含豐富的元數(shù)據(jù),方便用戶(hù)進(jìn)行數(shù)據(jù)過(guò)濾、領(lǐng)域切換等操作。未經(jīng)驗(yàn)證的數(shù)據(jù)集(OpenThoughts-Unverfied-173k)也已公開(kāi)發(fā)布,供進(jìn)一步研究。

        2. 模型訓(xùn)練與擴(kuò)展

        研究團(tuán)隊(duì)使用LLaMa-Factory對(duì)Qwen2.5-32B-Instruct進(jìn)行了三輪微調(diào),訓(xùn)練過(guò)程在A(yíng)WS SageMaker集群和Leonardo超級(jí)計(jì)算機(jī)上分別進(jìn)行。OpenThinker-32B的訓(xùn)練耗時(shí)90小時(shí),使用了2880個(gè)H100小時(shí);OpenThinker-32B-Unverified的訓(xùn)練耗時(shí)30小時(shí),使用了11520個(gè)A100小時(shí)。所有模型權(quán)重、數(shù)據(jù)集、數(shù)據(jù)生成代碼和訓(xùn)練代碼均已開(kāi)源。

        3. 性能評(píng)估與開(kāi)源

        研究團(tuán)隊(duì)使用開(kāi)源評(píng)估庫(kù)Evalchemy對(duì)模型進(jìn)行評(píng)估,結(jié)果顯示OpenThinker-32B在數(shù)學(xué)、代碼和科學(xué)等多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,性能直逼DeepSeek-R1-32B。項(xiàng)目主頁(yè)、Hugging Face模型地址和數(shù)據(jù)集地址均已公開(kāi),方便研究人員進(jìn)行進(jìn)一步研究和應(yīng)用。

        4. 未來(lái)展望

        研究團(tuán)隊(duì)期待社區(qū)利用OpenThoughts-114k數(shù)據(jù)集和OpenThinker模型進(jìn)行強(qiáng)化學(xué)習(xí)等方面的研究,并相信數(shù)據(jù)、驗(yàn)證和模型規(guī)模的協(xié)同作用將繼續(xù)推動(dòng)開(kāi)源推理模型的發(fā)展。OpenThinker-32B的開(kāi)源,為整個(gè)AI社區(qū)提供了寶貴的資源和啟示,也標(biāo)志著開(kāi)源推理模型發(fā)展邁出了重要一步。


        聯(lián)系作者

        文章來(lái)源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 国产精品成人亚洲| 亚洲中文字幕无码一久久区| **一级一级毛片免费观看| 成人性生交大片免费看中文| 日本在线观看免费高清| 西西人体大胆免费视频| 国产91成人精品亚洲精品| 色天使亚洲综合一区二区| WWW国产亚洲精品久久麻豆| 精品亚洲福利一区二区| 美女被羞羞网站免费下载| 老司机午夜精品视频在线观看免费 | 深夜A级毛片视频免费| 国产精品亚洲一区二区三区久久| 久久精品国产亚洲AV电影网| 香港特级三A毛片免费观看| 五月婷婷免费视频| 久久最新免费视频| 久久国产精品一区免费下载| 97亚洲熟妇自偷自拍另类图片 | 91成人免费观看网站| 免费观看成人毛片a片2008| 免费人成激情视频在线观看冫 | 视频一区二区三区免费观看| 亚洲精品黄色视频在线观看免费资源| 人体大胆做受免费视频| 182tv免费视频在线观看| 亚洲高清免费在线观看| 在线观看免费人成视频色9| 国产网站在线免费观看| 亚洲精品动漫人成3d在线| 亚洲精品成人无码中文毛片不卡| 亚洲国产精品国自产电影| 亚洲人xxx日本人18| 美女视频黄视大全视频免费的| 97在线免费视频| 青青视频观看免费99| 哒哒哒免费视频观看在线www| 亚洲色爱图小说专区| 亚洲人成综合在线播放| 国产成人综合亚洲一区|