開源推理模型阿里Marco-o1技術細節全面解讀

AIGC動態6個月前發布智猩猩GenAI

487 0 0

OpenAI O1模型引發業界對大規模推理模型(large reasoning models ，LRM)研究的熱潮。前文評測結果顯示開源的Marco-o1效果不錯，甚至超越部分閉源產品。今天這篇小作文將全面介紹Marco-o1的技術細節。

原標題：開源推理模型阿里Marco-o1技術細節全面解讀
文章來源：智猩猩GenAI
內容字數：14541字

Marco-o1：增強大型語言模型推理能力的創新探索

本文介紹了阿里國際數字化商業團隊提出的Marco-o1模型，該模型旨在提升大型語言模型（LLM）在復雜現實問題求解中的推理能力。Marco-o1并非由阿里Qwen團隊開發，它著重于解決缺乏明確標準、難以量化獎勵的開放性問題，而非僅限于數學、物理和編程等具有標準答案的領域。

1. Marco-o1 的主要創新

Marco-o1的主要貢獻在于以下幾個方面：

基于思維鏈 (CoT) 的微調： 通過對基礎模型Qwen2-7B-Instruct進行全參數微調，并結合開源和自主開發的CoT數據集，提升了模型處理復雜任務的能力。
蒙特卡羅樹搜索 (MCTS) 擴展解空間： 將大語言模型與MCTS算法相結合，利用模型輸出置信度來指導搜索，擴展了模型的解空間，從而找到更優解。
創新的推理動作策略： 引入不同粒度的推理動作（step和mini-step），以及反思機制，顯著提高了模型解決復雜問題的能力。mini-step策略將推理步驟細分為32或64個token，允許更精細的推理路徑探索。
首次將LRM應用于機器翻譯： 探索了推理時間縮放定律在多語言和翻譯領域的應用，展現了Marco-o1在處理復雜翻譯任務，特別是口語和俚語方面的優勢。

2. MCTS 在 Marco-o1 中的應用

Marco-o1 利用 MCTS 算法來擴展其解空間。MCTS 的四個步驟——選擇、擴展、模擬和反向傳播——在 Marco-o1 中被重新定義：

選擇： 基于節點的累計獎勵（置信度得分）和訪問次數選擇下一步推理。
擴展： 使用大語言模型生成多個可能的下一步推理輸出，作為新的節點。
模擬： 通過大語言模型模擬完整的推理路徑，并計算每個token的置信度，最終得到整體獎勵分數。
反向傳播： 將模擬結果（獎勵）反向傳播更新節點的統計信息。

置信度分數的計算基于softmax函數，考慮了前5個候選token的對數概率，從而更準確地評估推理路徑的質量。

3. 推理行動策略與反思機制

Marco-o1 探索了兩種粒度的推理動作：step和mini-step。mini-step 策略通過更細粒度的動作，能夠探索到step策略可能忽略的更優解。此外，Marco-o1 引入了反思機制，通過提示模型自我反思，修正潛在錯誤，進一步提升了模型的準確性。

4. 實驗結果與分析

實驗結果表明，Marco-o1 在 MGSM 數據集上取得了顯著的性能提升，MCTS 的引入有效擴展了解空間，提高了模型解決復雜問題的概率。不同粒度的推理動作策略在不同數據集和任務上的表現有所差異，目前尚無絕對最佳策略。在翻譯任務中，Marco-o1 也展現出了優于 Google Translate 的能力，尤其是在處理口語和俚語方面。

5. 未來展望

未來，研究團隊計劃通過結果獎勵建模 (ORM) 和過程獎勵建模 (PRM) 來完善 MCTS 的獎勵信號，并利用強化學習技術微調 Marco-o1 的決策過程，以進一步增強其處理復雜現實任務的能力。

6. 第四屆全球自動駕駛峰會預告

最后，文章還預告了將于1月14日在北京舉辦的第四屆全球自動駕駛峰會。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

閱讀原文

# AIGC動態 # 低資源AI # 開源推理模型 # 模型壓縮 # 阿里Marco-o1 # 高效推理

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

<samp id="68c8e"></samp>

開源推理模型阿里Marco-o1技術細節全面解讀

OpenAI O1模型引發業界對大規模推理模型(large reasoning models ，LRM)研究的熱潮。前文評測結果顯示開源的Marco-o1效果不錯，甚至超越部分閉源產品。今天這篇小作文將全面介紹Marco-o1的技術細節。

Marco-o1：增強大型語言模型推理能力的創新探索

1. Marco-o1 的主要創新

2. MCTS 在 Marco-o1 中的應用

3. 推理行動策略與反思機制

4. 實驗結果與分析

5. 未來展望

6. 第四屆全球自動駕駛峰會預告

聯系作者

AI幻覺能助力科學重大突破？諾獎得主Baker用得可香了

《黑神話：悟空》獲Steam年度最佳游戲獎/雷軍：小米汽車明年加速交付30萬輛車/iPhoneSE4或改名為iPhone16E

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

開源推理模型阿里Marco-o1技術細節全面解讀

OpenAI O1模型引發業界對大規模推理模型(large reasoning models ，LRM)研究的熱潮。前文評測結果顯示開源的Marco-o1效果不錯，甚至超越部分閉源產品。今天這篇小作文將全面介紹Marco-o1的技術細節。

Marco-o1：增強大型語言模型推理能力的創新探索

1. Marco-o1 的主要創新

2. MCTS 在 Marco-o1 中的應用

3. 推理行動策略與反思機制

4. 實驗結果與分析

5. 未來展望

6. 第四屆全球自動駕駛峰會預告

聯系作者

AI幻覺能助力科學重大突破？諾獎得主Baker用得可香了

《黑神話：悟空》獲Steam年度最佳游戲獎/雷軍：小米汽車明年加速交付30萬輛車/iPhoneSE4或改名為iPhone16E

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

OpenAI O1模型引發業界對大規模推理模型(large reasoning models ，LRM)研究的熱潮。前文評測結果顯示開源的Marco-o1效果不錯，甚至超越部分閉源產品。今天這篇小作文將全面介紹Marco-o1的技術細節。

AI幻覺能助力科學重大突破？諾獎得主Baker用得可香了