Light-R1 – 360智腦開(kāi)源的長(zhǎng)思維鏈推理模型
Light-R1是360智腦推出的一款開(kāi)源AI模型,專(zhuān)注于數(shù)學(xué)領(lǐng)域的長(zhǎng)思維鏈推理。該模型名為L(zhǎng)ight-R1-32B,基于Qwen2.5-32B-Instruct構(gòu)建,并通過(guò)7萬(wàn)條數(shù)學(xué)數(shù)據(jù)與雙階段課程學(xué)習(xí)(SFT+DPO)進(jìn)行訓(xùn)練,成功超越了DeepSeek-R1-Distill-Qwen-32B的性能。在A(yíng)IME24測(cè)試中,Light-R1取得了76.6的高分,明顯高于DeepSeek-R1-Distill的72.6分。此外,模型的訓(xùn)練成本非常低,使用12臺(tái)H800機(jī)器運(yùn)行6小時(shí),費(fèi)用約為1000美元。Light-R1完全開(kāi)源,包括模型、數(shù)據(jù)集、訓(xùn)練框架和評(píng)測(cè)代碼,旨在推動(dòng)開(kāi)源社區(qū)的發(fā)展,為低成本訓(xùn)練領(lǐng)域的專(zhuān)業(yè)模型提供借鑒。
Light-R1是什么
Light-R1是360智腦的開(kāi)源AI模型,專(zhuān)注于數(shù)學(xué)領(lǐng)域的長(zhǎng)思維鏈推理。具體版本為L(zhǎng)ight-R1-32B,基于Qwen2.5-32B-Instruct開(kāi)發(fā)。通過(guò)采用7萬(wàn)條數(shù)學(xué)數(shù)據(jù)進(jìn)行雙階段課程學(xué)習(xí)(SFT+DPO),該模型在性能上超越了DeepSeek-R1-Distill-Qwen-32B。在A(yíng)IME24測(cè)試中,Light-R1以76.6分的優(yōu)異成績(jī)領(lǐng)先于DeepSeek-R1-Distill的72.6分。其訓(xùn)練成本低,僅需12臺(tái)H800機(jī)器運(yùn)行6小時(shí),約1000美元。該模型全面開(kāi)源,旨在推動(dòng)開(kāi)源社區(qū)的發(fā)展,并為低成本訓(xùn)練領(lǐng)域的專(zhuān)業(yè)模型提供參考。

Light-R1的主要功能
- 高效數(shù)學(xué)問(wèn)題解決:能夠迅速且準(zhǔn)確地解決各種復(fù)雜數(shù)學(xué)問(wèn)題,涵蓋代數(shù)、幾何、概率等多個(gè)領(lǐng)域。
- 推理能力提升:具備強(qiáng)大的邏輯推理能力,能夠處理長(zhǎng)思維鏈的問(wèn)題。
- 泛化能力:在邏輯推理及語(yǔ)言理解等其他領(lǐng)域也展現(xiàn)出良好的泛化能力。
- 低成本訓(xùn)練與部署:以極低的成本實(shí)現(xiàn)高性能,非常適合資源有限的用戶(hù)或企業(yè)快速部署和應(yīng)用。
Light-R1的技術(shù)原理
- 基礎(chǔ)模型與起點(diǎn):模型依托Qwen2.5-32B-Instruct開(kāi)發(fā),經(jīng)過(guò)優(yōu)化后實(shí)現(xiàn)了超越DeepSeek-R1-Distill的性能提升。
- 課程學(xué)習(xí):
- SFT(Supervised Fine-Tuning):通過(guò)篩選難度分級(jí)的數(shù)據(jù),進(jìn)行有監(jiān)督的微調(diào),第一階段使用7萬(wàn)條數(shù)據(jù),第二階段從中挑選出難度最高的3000條進(jìn)行進(jìn)一步微調(diào)。
- DPO(Direct Preference Optimization):在SFT的基礎(chǔ)上,通過(guò)多次采樣和偏好對(duì)的構(gòu)建,對(duì)模型的輸出質(zhì)量進(jìn)行優(yōu)化。
- 數(shù)據(jù)處理與去重:訓(xùn)練數(shù)據(jù)采集自多個(gè)開(kāi)源數(shù)學(xué)數(shù)據(jù)集(如OpenR1-Math-220k、OpenThoughts-114k等),經(jīng)過(guò)嚴(yán)格的數(shù)據(jù)去重處理,確保測(cè)試數(shù)據(jù)的保密性,避免對(duì)模型性能的影響。
- 模型融合:最終形成的Light-R1-32B是經(jīng)過(guò)SFT階段2、DPO以及另一個(gè)DPO版本的模型融合而成,進(jìn)一步提升了模型的性能和穩(wěn)定性。
- 訓(xùn)練框架與優(yōu)化:使用360-LLaMA-Factory訓(xùn)練框架,支持序列并行和高效的分布式訓(xùn)練。通過(guò)優(yōu)化訓(xùn)練流程,Light-R1在12臺(tái)H800機(jī)器上僅需6小時(shí)即可完成訓(xùn)練。
Light-R1的項(xiàng)目地址
- GitHub倉(cāng)庫(kù):https://github.com/Qihoo360/Light-R1
- HuggingFace模型庫(kù):https://huggingface.co/collections/qihoo360/light-r1
Light-R1的應(yīng)用場(chǎng)景
- 教育領(lǐng)域:作為數(shù)學(xué)學(xué)習(xí)工具,幫助學(xué)生解決復(fù)雜問(wèn)題,提供詳細(xì)解題步驟和思路,適用于數(shù)學(xué)競(jìng)賽和日常學(xué)習(xí)。
- 科研與學(xué)術(shù):輔助數(shù)學(xué)研究和跨學(xué)科問(wèn)題解決,例如物理建模、工程優(yōu)化等。
- 企業(yè)應(yīng)用:用于數(shù)據(jù)分析、風(fēng)險(xiǎn)評(píng)估、供應(yīng)鏈優(yōu)化等復(fù)雜問(wèn)題的解決。
- 軟件集成:可以集成到智能助手、數(shù)學(xué)軟件中,增強(qiáng)其推理和解題功能。
- 開(kāi)源與開(kāi)發(fā)者:支持開(kāi)發(fā)者進(jìn)行定制和擴(kuò)展,推動(dòng)開(kāi)源社區(qū)的進(jìn)步。
常見(jiàn)問(wèn)題
- Light-R1支持哪些數(shù)學(xué)領(lǐng)域?:Light-R1能夠處理代數(shù)、幾何、概率等多個(gè)數(shù)學(xué)領(lǐng)域的問(wèn)題。
- 如何獲取Light-R1模型?:用戶(hù)可以通過(guò)GitHub或HuggingFace模型庫(kù)下載Light-R1模型及相關(guān)資源。
- Light-R1的訓(xùn)練成本高嗎?:不高,Light-R1在12臺(tái)H800機(jī)器上運(yùn)行6小時(shí)的成本約為1000美元。
- 可以在教育中如何使用Light-R1?:Light-R1可作為數(shù)學(xué)學(xué)習(xí)輔導(dǎo)工具,幫助學(xué)生解決難題并提供解題思路。

粵公網(wǎng)安備 44011502001135號(hào)