Seed-Thinking-v1.5 – 字節(jié)跳動(dòng)推出的最新思考模型
Seed-Thinking-v1.5 是字節(jié)跳動(dòng)推出的一款先進(jìn)推理智能模型,采用了混合專家(MoE)架構(gòu),擁有高達(dá) 200B 的總參數(shù)量,每次激活 20B 參數(shù)。該模型在諸多基準(zhǔn)測(cè)試中表現(xiàn)突出,如在 AIME 2024 測(cè)試中獲得 86.7 分,在 Codeforces 評(píng)測(cè)中 pass@8 指標(biāo)達(dá)到了 55.0 分,在 GPQA 測(cè)試中得分為 77.3 分。此外,Seed-Thinking-v1.5 在非推理任務(wù)中的勝率比 DeepSeek R1 高出 8%,展現(xiàn)了其強(qiáng)大的適應(yīng)能力。該模型將于 4 月 17 日通過(guò)火山引擎開(kāi)放接口供用戶體驗(yàn)。
Seed-Thinking-v1.5是什么
Seed-Thinking-v1.5 是字節(jié)跳動(dòng)開(kāi)發(fā)的一款推理智能模型,采用混合專家(MoE)架構(gòu),具有總計(jì) 200B 的參數(shù)量,并在運(yùn)行時(shí)激活 20B 參數(shù)。該模型在多個(gè)權(quán)威測(cè)試中表現(xiàn)優(yōu)異,如 AIME 2024 測(cè)試得分 86.7,Codeforces 評(píng)測(cè)中的 pass@8 指標(biāo)達(dá)到 55.0%,以及 GPQA 測(cè)試得分 77.3。在非推理任務(wù)中,其勝率比 DeepSeek R1 高出 8%,顯示了廣泛的應(yīng)用潛力。Seed-Thinking-v1.5 的開(kāi)發(fā)依賴于經(jīng)過(guò)精心挑選的訓(xùn)練數(shù)據(jù)、先進(jìn)的強(qiáng)化學(xué)習(xí)框架、雙層獎(jiǎng)勵(lì)系統(tǒng)及高效的基礎(chǔ)設(shè)施。該模型將于 4 月 17 日通過(guò)火山引擎的開(kāi)放接口供用戶體驗(yàn)。
Seed-Thinking-v1.5的主要功能
- 卓越的推理能力:Seed-Thinking-v1.5 在多個(gè)權(quán)威基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,例如在 AIME 2024 測(cè)試中獲得 86.7 分,在 Codeforces 評(píng)測(cè)中 pass@8 指標(biāo)達(dá)到 55.0%,在 GPQA 測(cè)試中得分為 77.3,顯示出其在 STEM 領(lǐng)域和編程能力上的強(qiáng)大推理能力。
- 廣泛的泛化能力:該模型在非推理任務(wù)中的表現(xiàn)同樣出色,勝率超出 DeepSeek R1 8%,展現(xiàn)了其在復(fù)雜用戶場(chǎng)景中的處理能力。
- 高效的基礎(chǔ)設(shè)施:為支持大規(guī)模訓(xùn)練,Seed-Thinking-v1.5 采用了 HybridFlow 編程模型和流式推理系統(tǒng)(SRS),通過(guò)三層并行架構(gòu)(張量/專家/序列并行)優(yōu)化了訓(xùn)練效率。
Seed-Thinking-v1.5的技術(shù)原理
- 混合專家模型(MoE)架構(gòu):該模型采用混合專家模型架構(gòu),擁有 200B 的總參數(shù)量,每次激活 20B 參數(shù),既保持高性能,又顯著降低了計(jì)算資源的消耗,提升了模型效率。
- 強(qiáng)化學(xué)習(xí)算法
- VAPO 和 DAPO 框架:為應(yīng)對(duì)強(qiáng)化學(xué)習(xí)中的不穩(wěn)定性問(wèn)題,研究團(tuán)隊(duì)提出了 VAPO(面向 Actor-Critic)和 DAPO(面向 Policy Gradient)兩大框架。這些方法提供了穩(wěn)定的訓(xùn)練軌跡,優(yōu)化了推理模型。
- 獎(jiǎng)勵(lì)建模:團(tuán)隊(duì)設(shè)計(jì)了兩種獎(jiǎng)勵(lì)建模方案,Seed-Verifier 和 Seed-Thinking-Verifier。后者通過(guò)詳細(xì)的推理過(guò)程,有效解決了獎(jiǎng)勵(lì)、預(yù)測(cè)不確定性和邊界情況處理等問(wèn)題。
- 數(shù)據(jù)處理與增強(qiáng)
- 可驗(yàn)證問(wèn)題:涵蓋數(shù)學(xué)、編程和邏輯謎題,通過(guò)嚴(yán)格篩選與增強(qiáng)(例如將選擇題轉(zhuǎn)為填空題),確保模型獲得真實(shí)的推理能力。
- 非可驗(yàn)證問(wèn)題:如創(chuàng)意寫(xiě)作和對(duì)話,通過(guò)動(dòng)態(tài)過(guò)濾低方差樣本,避免模型陷入局部?jī)?yōu)化。
- 數(shù)據(jù)增強(qiáng)策略:例如由模型生成候選答案,并結(jié)合人工驗(yàn)證修正錯(cuò)誤參,以提升數(shù)據(jù)可靠性。
- 分布式訓(xùn)練基礎(chǔ)設(shè)施
- 混合并行架構(gòu):結(jié)合張量并行、專家并行和上下文并行,支持高效的大規(guī)模訓(xùn)練。
- 流式生成系統(tǒng)(SRS):通過(guò)異步處理和動(dòng)態(tài)資源調(diào)度,提升長(zhǎng)文本生成效率 3 倍,解決了傳統(tǒng)同步框架的“拖尾問(wèn)題”。
- 自動(dòng)調(diào)優(yōu)系統(tǒng):根據(jù)實(shí)時(shí)負(fù)載動(dòng)態(tài)選擇最優(yōu)計(jì)算配置,平衡內(nèi)存與計(jì)算資源。
Seed-Thinking-v1.5的項(xiàng)目地址
- Github倉(cāng)庫(kù):https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
Seed-Thinking-v1.5的性能表現(xiàn)
- 數(shù)學(xué)推理:在 AIME 2024 測(cè)試中獲得 86.7 分,與 OpenAI 的 o3-mini-high 持平。
- 編程任務(wù):在 Codeforces 評(píng)測(cè)中,pass@8 指標(biāo)達(dá)到 55.0%,優(yōu)于 DeepSeek-R1。
- 科學(xué)問(wèn)答:在 GPQA 測(cè)試中準(zhǔn)確率達(dá) 77.3%,接近頂尖模型水平。
- 非推理任務(wù):在非推理任務(wù)中,勝率比 DeepSeek R1 高出 8%,展現(xiàn)出較強(qiáng)的泛化能力。
Seed-Thinking-v1.5的應(yīng)用場(chǎng)景
- 科學(xué)問(wèn)答:Seed-Thinking-v1.5 在科學(xué)問(wèn)答方面表現(xiàn)卓越,能夠理解和回答涉及科學(xué)概念和原理的復(fù)雜問(wèn)題,適合教育和研究領(lǐng)域。
- 創(chuàng)意寫(xiě)作:該模型可生成跨時(shí)空對(duì)話,如模擬歷史人物的內(nèi)心獨(dú)白或融合不同領(lǐng)域術(shù)語(yǔ)的敘事,具有在內(nèi)容創(chuàng)作、廣告、劇本編寫(xiě)等領(lǐng)域的潛在應(yīng)用價(jià)值。
- 邏輯推理:在處理需要邏輯分析和推理的問(wèn)題時(shí),Seed-Thinking-v1.5 顯示出顯著優(yōu)勢(shì),適合法律分析、市場(chǎng)策略規(guī)劃等需要邏輯判斷的場(chǎng)景。
- 教育輔助:Seed-Thinking-v1.5 的推理能力能夠幫助學(xué)生解決數(shù)學(xué)和科學(xué)問(wèn)題,提供編程練習(xí)反饋,輔助語(yǔ)言學(xué)習(xí)。