DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5是一款由DeepSeek團隊開發的開源數學模型，憑借其70億參數的強大計算能力，顯著提升了數學定理證明的效率與準確性。該模型融合了強化學習（RLPAF）與蒙特卡洛樹搜索（特別是RMaxTS變體），在高中及大學級別的數學問題上，取得了超越其他開源模型的卓越表現，并在Lean 4平臺上創造了新的最先進水平（SOTA）。DeepSeek-Prover-V1.5不僅能夠驗證已有的數學證明，還有望為數學領域的創新做出貢獻，推動研究進入“大數學”時代。

DeepSeek-Prover-V1.5是什么

DeepSeek-Prover-V1.5是由DeepSeek團隊研發的一款開源數學大模型，擁有70億個參數。該模型通過強化學習（RLPAF）和蒙特卡洛樹搜索（尤其是RMaxTS變體）的結合，在數學定理的證明效率和準確性方面取得了顯著提升。該模型在高中和大學級別的數學問題上，尤其在Lean 4平臺上的表現超過了所有其他開源模型，創造了新的最先進水平（SOTA）。它不僅能驗證現有的證明，還具備創造新數學知識的潛力，為數學研究開辟了新的可能性。

主要功能

強化學習優化：該模型利用基于證明助手反饋的強化學習（RLPAF），通過Lean證明器的驗證結果作為獎勵信號，優化證明生成的過程。
蒙特卡洛樹搜索：引入RMaxTS算法，這是一種改進的蒙特卡洛樹搜索方法，用于解決證明搜索中的獎勵稀疏問題，增強模型的探索能力。
證明生成能力：能生成高中和大學級別的數學定理證明，大幅提升證明的成功率。
預訓練與微調：在高質量的數學和代碼數據上進行預訓練，并針對Lean 4代碼補全數據集進行監督微調，增強模型的形式化證明能力。
自然語言與形式化證明對齊：通過DeepSeek-Coder V2在Lean 4代碼旁注釋自然語言推理鏈，將自然語言推理與形式化定理證明相結合。

技術原理

預訓練（Pre-training）：DeepSeek-Prover-V1.5在數學及代碼數據上進行了深入的預訓練，專注于Lean、Isabelle和Metamath等形式化數學語言，以提升其形式化定理證明和數學推理的能力。
監督微調（Supervised Fine-tuning）：通過特定的數據增強技術，例如在Lean 4代碼旁添加自然語言思維鏈注釋，以及在證明代碼中插入中間策略狀態信息，來提高模型對自然語言與形式化證明之間一致性的理解。
強化學習（Reinforcement Learning）：采用GRPO算法進行基于證明助手反饋的強化學習，利用Lean證明器的驗證結果作為獎勵信號，進一步優化模型，使其更符合形式化驗證系統的需求。
蒙特卡洛樹搜索（Monte-Carlo Tree Search， MCTS）：引入一種新的樹搜索方法，通過截斷和重新開始機制，將不完整的證明分解為樹節點序列，并利用這些節點繼續生成證明。
內在獎勵驅動的探索（Intrinsic Rewards for Exploration）：DeepSeek-Prover-V1.5通過RMaxTS算法使用內在獎勵來驅動探索行為，鼓勵模型生成多樣化的證明路徑，從而解決獎勵稀疏問題。

DeepSeek-Prover-V1.5