Step-R1-V-Mini

Step-R1-V-Mini – 階躍星辰最新推出的多模態推理模型

Step-R1-V-Mini是一款由階躍星辰最新推出的多模態推理模型，能夠處理圖文輸入并生成文字輸出。該模型在圖像感知和復雜推理任務方面表現出色，具備優異的指令遵循和通用能力，尤其在視覺推理、數學、代碼及文本推理等領域均處于領先地位。

Step-R1-V-Mini是什么

Step-R1-V-Mini 是階躍星辰最新推出的多模態推理模型，它支持圖文輸入與文字輸出，能夠精準感知圖像并完成復雜的推理任務。該模型在視覺推理領域尤為突出，同時在數學、代碼和文本推理方面也位居前列。通過采用多模態聯合強化學習機制，基于PPO策略在圖像空間引入可驗證獎勵機制，提升了模型的泛化能力和魯棒性。此外，模型利用多模態合成數據進行訓練，有效解決了訓練過程中的“蹺蹺板”問題。

主要功能

多模態輸入與輸出：支持圖文輸入和文字輸出，能夠處理圖像與文字信息，并以文字形式輸出推理結果，具備良好的指令遵循能力。
高精度圖像感知與推理：模型能夠高精度識別圖像內容，執行復雜的推理任務，如識別特定地點、分析美食圖片并生成詳盡的菜譜等。在MathVision視覺推理榜單中名列國內第一。
數學問題求解：可以構建合理的推理鏈，對復雜數學問題進行逐步解決，包括奧數難題和幾何題目。
邏輯推理分析：通過自主嘗試多種解題思路，確保不遺漏任何良好解決方案。
復雜算法題解答：能夠正確解答LeetCode平臺上難度為“Hard”的算法題。
代碼邏輯構建：逐步分析用戶需求，構建代碼邏輯，并在代碼寫作中進行分析和驗證。
文學創作：深入理解用戶需求，分析創作主題和文學題材，為事物賦予人類情感的象征意義，增加個性化和創新的表達風格。

技術原理

多模態聯合強化學習：基于PPO（Proximal Policy Optimization）策略的強化學習方法，通過在線生成樣本實時更新模型。引入可驗證獎勵機制，解決圖像空間推理中的復雜性和混淆問題，相較于傳統方法具備更強的泛化性和魯棒性。
高質量多模態數據合成：設計了基于環境反饋的多模態數據合成鏈路，通過合成可規模化訓練的多模態推理數據，提升文本和視覺的推理能力，解決了訓練過程中的“蹺蹺板”問題。
冷啟動與多階段強化學習：訓練過程包括冷啟動和多階段強化學習，首先微調基礎模型，然后進行大規模強化學習訓練，最后生成高質量SFT數據，再次進行SFT訓練，最終使用所有領域的數據進行強化學習，得到最終模型。