萬字梳理：揭秘 DeepSeek 中的 RL 與 AGI 下一步丨AIR 2025

Transformer架構的非遞歸設計阻礙了跨層的記憶共享，或限制模型泛化能力。

原標題：萬字梳理：揭秘 DeepSeek 中的 RL 與 AGI 下一步丨AIR 2025
文章來源：AI科技評論
內容字數：51445字

DeepSeek及其背后的AI推理能力探索

本文總結了AI智能體推理與決策研討會（AIR 2025）上關于DeepSeek及其相關人工智能推理能力研究的精彩討論。會議匯聚了來自倫敦大學學院、加州大學伯克利分校、普林斯頓大學等多所高校及Meta、華為等企業的專家學者，圍繞強化學習、推理決策、AI智能體等議題展開深入探討。

1. DeepSeek的開放訓練方法

華盛頓大學Hanna Hajishirai教授團隊的研究揭示了DeepSeek采用的語言模型推理開放訓練方法，該方法包含三個階段：指令微調（SFT）、偏好微調以及具有可驗證獎勵的強化學習。SFT通過指令和任務引導模型學習遵循指令；偏好微調則通過比較不同完成結果，選擇更優結果來優化模型；強化學習則利用可驗證獎勵（例如，最終答案是否正確）進一步提升模型推理能力。該團隊還通過角色扮演生成大量高質量數據，并利用混合數據策略優化模型性能，在數學推理等任務上取得了顯著提升。

2. Transformer的隱式推理能力

俄亥俄州立大學Huan Sun教授團隊的研究探討了Transformer模型的隱式推理能力。研究發現，模型的泛化速度與其訓練數據總量關系不大，而與“推斷事實”與“原子事實”的比例密切相關，比例越高，泛化速度越快。通過logit lens分析，研究團隊揭示了模型內部的“泛化電路”，并指出Transformer架構的非遞歸性限制了跨層記憶共享，從而影響了模型的泛化能力。

3. 符號結構與神經網絡的統一

Meta GenAI田淵棟教授總結了應對大語言模型局限的幾種方法：數據規模擴展、測試時擴展（使用更大模型、工具或思維鏈）以及符號結構與神經網絡表示的統一。他介紹了利用梯度上升訓練神經網絡以發現符號結構的初步嘗試，但該方法仍處于早期階段。

4. 基于API的網絡智能體

卡內基梅隆大學Graham Neubig教授團隊的研究提出了一種混合Agent方案，該Agent能夠交替執行網頁瀏覽和API調用操作，結合兩種方式的優勢，提升了Agent在復雜網絡任務中的性能。研究指出，高質量的API對于提升Agent性能至關重要。

5. 形式化數學推理

普林斯頓大學金馳教授團隊介紹了其開發的開源大模型Goedel-Prover，該模型通過將自然語言數學問題翻譯成形式語言（如Lean 4），并生成形式化證明，在自動定理證明方面達到了世界領先水平。該團隊還探討了形式化數學推理領域的數據稀缺問題，并提出了一些解決方法，例如自動形式化和神經猜想。

總結

AIR 2025會議的討論展現了當前AI推理能力研究的前沿進展，DeepSeek作為其中的代表，其基于強化學習的開放訓練方法為提升大語言模型推理能力提供了新的思路。同時，與會專家們也指出了Transformer架構的局限性以及未來研究方向，包括提高數據質量、改進模型架構、探索符號與神經網絡的統一等，為推動AI智能體推理與決策能力的進一步發展奠定了基礎。

聯系作者

文章來源：AI科技評論
作者微信：
作者簡介：雷峰網旗下AI新媒體。聚焦AI前沿研究，關注AI工程落地。

閱讀原文

# AIGC動態 # AIR2025 # DeepSeek # 強化學習AGI # 深度強化學習 # 通用人工智能RL

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

萬字梳理：揭秘 DeepSeek 中的 RL 與 AGI 下一步丨AIR 2025

Transformer架構的非遞歸設計阻礙了跨層的記憶共享，或限制模型泛化能力。

DeepSeek及其背后的AI推理能力探索

1. DeepSeek的開放訓練方法

2. Transformer的隱式推理能力

3. 符號結構與神經網絡的統一

4. 基于API的網絡智能體

5. 形式化數學推理

總結

聯系作者

風投式思維：哪吒2和DeepSeek背后的共同思維模式

張俊林：Grok 3是否意味著預訓練Scaling Law仍然成立？

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點