QwenLong-L1

QwenLong-L1 – 阿里Qwen-Doc推出的長文本推理大模型

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集團 Qwen-Doc 團隊開發的首個基于強化學習的長文本推理大模型。憑借漸進式上下文擴展、課程引導強化學習和難度感知的回顧性采樣策略，該模型在處理長文本時的推理能力得到了顯著提升。在多個長文檔問答（DocQA）基準測試中，QwenLong-L1-32B 的平均準確率達到了70.7%，超越了許多現有的旗艦模型，如OpenAI-o3-mini和Qwen3-235B-A22B，并與Claude-3.7-Sonnet-Thinking的表現相當。該模型能夠高效處理復雜的多跳推理、邏輯推理和數學推理問題，適用于法律、金融、科研等多個領域，展示了卓越的長文本處理與推理能力。

QwenLong-L1-32B是什么

QwenLong-L1-32B 是阿里巴巴集團 Qwen-Doc 團隊推出的一款創新型長文本推理大模型。該模型采用強化學習進行訓練，結合漸進式上下文擴展、課程引導的強化學習和難度感知的回顧性采樣策略，大幅提升了在長文本環境下的推理能力。模型在多個長文本文檔問答（DocQA）基準測試中表現優異，準確率達到70.7%，超過了如OpenAI-o3-mini和Qwen3-235B-A22B等現有旗艦模型，并與Claude-3.7-Sonnet-Thinking相當。QwenLong-L1-32B能夠解決復雜的多跳推理、邏輯推理和數學推理問題，廣泛適用于法律、金融、科研等多個領域，展現出強大的長文本處理能力。

QwenLong-L1-32B的主要功能

長文本推理：高效處理復雜的長文本任務，包括多跳推理、邏輯推理和數學推理。
穩定訓練：通過課程引導的強化學習和難度感知的回顧性采樣，確保訓練過程的穩定性。
混合獎勵：結合基于規則和模型的獎勵機制，實現精確性與召回率的平衡。
廣泛適用性：適用于多種實際應用場景，如法律文檔分析、財務報告解讀和科研論文閱讀等。
高性能表現：在多個長文本文檔問答（DocQA）基準測試中，表現優于其他旗艦模型，如OpenAI-o3-mini和Qwen3-235B-A22B。

QwenLong-L1-32B的技術原理

漸進式上下文擴展：將訓練過程分為多個階段，逐步增加上下文長度，以保證模型在每個階段的穩定適應，同時優先處理復雜樣本，激勵模型深入探索。
混合獎勵機制：通過嚴格匹配最終答案和格式驗證，確保模型輸出的精確性，同時利用小型語言模型作為評估器，判斷生成答案與標準答案的語義等價性，提高召回率。
強化學習算法：采用組相對優勢估計來優化策略，避免額外的價值網絡，降低計算復雜度。同時結合高剪切閾值、動態采樣策略、逐標記損失和過長獎勵塑形，確保RL過程的穩定和高效。
預訓練和微調：基于預訓練的短文本推理模型（如R1-Distill-Qwen-14B和R1-Distill-Qwen-32B）進行微調，以提供穩健的初始策略。