Light-R1 – 360智腦開源的長思維鏈推理模型
Light-R1是360智腦推出的一款開源AI模型,專注于數學領域的長思維鏈推理。該模型名為Light-R1-32B,基于Qwen2.5-32B-Instruct構建,并通過7萬條數學數據與雙階段課程學習(SFT+DPO)進行訓練,成功超越了DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24測試中,Light-R1取得了76.6的高分,明顯高于DeepSeek-R1-Distill的72.6分。此外,模型的訓練成本非常低,使用12臺H800機器運行6小時,費用約為1000美元。Light-R1完全開源,包括模型、數據集、訓練框架和評測代碼,旨在推動開源社區的發展,為低成本訓練領域的專業模型提供借鑒。
Light-R1是什么
Light-R1是360智腦的開源AI模型,專注于數學領域的長思維鏈推理。具體版本為Light-R1-32B,基于Qwen2.5-32B-Instruct開發。通過采用7萬條數學數據進行雙階段課程學習(SFT+DPO),該模型在性能上超越了DeepSeek-R1-Distill-Qwen-32B。在AIME24測試中,Light-R1以76.6分的優異成績領先于DeepSeek-R1-Distill的72.6分。其訓練成本低,僅需12臺H800機器運行6小時,約1000美元。該模型全面開源,旨在推動開源社區的發展,并為低成本訓練領域的專業模型提供參考。
Light-R1的主要功能
- 高效數學問題解決:能夠迅速且準確地解決各種復雜數學問題,涵蓋代數、幾何、概率等多個領域。
- 推理能力提升:具備強大的邏輯推理能力,能夠處理長思維鏈的問題。
- 泛化能力:在邏輯推理及語言理解等其他領域也展現出良好的泛化能力。
- 低成本訓練與部署:以極低的成本實現高性能,非常適合資源有限的用戶或企業快速部署和應用。
Light-R1的技術原理
- 基礎模型與起點:模型依托Qwen2.5-32B-Instruct開發,經過優化后實現了超越DeepSeek-R1-Distill的性能提升。
- 課程學習:
- SFT(Supervised Fine-Tuning):通過篩選難度分級的數據,進行有監督的微調,第一階段使用7萬條數據,第二階段從中挑選出難度最高的3000條進行進一步微調。
- DPO(Direct Preference Optimization):在SFT的基礎上,通過多次采樣和偏好對的構建,對模型的輸出質量進行優化。
- 數據處理與去重:訓練數據采集自多個開源數學數據集(如OpenR1-Math-220k、OpenThoughts-114k等),經過嚴格的數據去重處理,確保測試數據的保密性,避免對模型性能的影響。
- 模型融合:最終形成的Light-R1-32B是經過SFT階段2、DPO以及另一個DPO版本的模型融合而成,進一步提升了模型的性能和穩定性。
- 訓練框架與優化:使用360-LLaMA-Factory訓練框架,支持序列并行和高效的分布式訓練。通過優化訓練流程,Light-R1在12臺H800機器上僅需6小時即可完成訓練。
Light-R1的項目地址
- GitHub倉庫:https://github.com/Qihoo360/Light-R1
- HuggingFace模型庫:https://huggingface.co/collections/qihoo360/light-r1
Light-R1的應用場景
- 教育領域:作為數學學習工具,幫助學生解決復雜問題,提供詳細解題步驟和思路,適用于數學競賽和日常學習。
- 科研與學術:輔助數學研究和跨學科問題解決,例如物理建模、工程優化等。
- 企業應用:用于數據分析、風險評估、供應鏈優化等復雜問題的解決。
- 軟件集成:可以集成到智能助手、數學軟件中,增強其推理和解題功能。
- 開源與開發者:支持開發者進行定制和擴展,推動開源社區的進步。
常見問題
- Light-R1支持哪些數學領域?:Light-R1能夠處理代數、幾何、概率等多個數學領域的問題。
- 如何獲取Light-R1模型?:用戶可以通過GitHub或HuggingFace模型庫下載Light-R1模型及相關資源。
- Light-R1的訓練成本高嗎?:不高,Light-R1在12臺H800機器上運行6小時的成本約為1000美元。
- 可以在教育中如何使用Light-R1?:Light-R1可作為數學學習輔導工具,幫助學生解決難題并提供解題思路。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...