<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        開源推理模型阿里Marco-o1技術細節全面解讀

        AIGC動態6個月前發布 智猩猩GenAI
        487 0 0

        OpenAI O1模型引發業界對大規模推理模型(large reasoning models ,LRM)研究的熱潮。前文評測結果顯示開源的Marco-o1效果不錯,甚至超越部分閉源產品。今天這篇小作文將全面介紹Marco-o1的技術細節。

        開源推理模型阿里Marco-o1技術細節全面解讀

        原標題:開源推理模型阿里Marco-o1技術細節全面解讀
        文章來源:智猩猩GenAI
        內容字數:14541字

        Marco-o1:增強大型語言模型推理能力的創新探索

        本文介紹了阿里國際數字化商業團隊提出的Marco-o1模型,該模型旨在提升大型語言模型(LLM)在復雜現實問題求解中的推理能力。Marco-o1并非由阿里Qwen團隊開發,它著重于解決缺乏明確標準、難以量化獎勵的開放性問題,而非僅限于數學、物理和編程等具有標準答案的領域。

        1. Marco-o1 的主要創新

        Marco-o1的主要貢獻在于以下幾個方面:

        1. 基于思維鏈 (CoT) 的微調: 通過對基礎模型Qwen2-7B-Instruct進行全參數微調,并結合開源和自主開發的CoT數據集,提升了模型處理復雜任務的能力。

        2. 蒙特卡羅樹搜索 (MCTS) 擴展解空間: 將大語言模型與MCTS算法相結合,利用模型輸出置信度來指導搜索,擴展了模型的解空間,從而找到更優解。

        3. 創新的推理動作策略: 引入不同粒度的推理動作(step和mini-step),以及反思機制,顯著提高了模型解決復雜問題的能力。mini-step策略將推理步驟細分為32或64個token,允許更精細的推理路徑探索。

        4. 首次將LRM應用于機器翻譯: 探索了推理時間縮放定律在多語言和翻譯領域的應用,展現了Marco-o1在處理復雜翻譯任務,特別是口語和俚語方面的優勢。

        2. MCTS 在 Marco-o1 中的應用

        Marco-o1 利用 MCTS 算法來擴展其解空間。MCTS 的四個步驟——選擇、擴展、模擬和反向傳播——在 Marco-o1 中被重新定義:

        1. 選擇: 基于節點的累計獎勵(置信度得分)和訪問次數選擇下一步推理。

        2. 擴展: 使用大語言模型生成多個可能的下一步推理輸出,作為新的節點。

        3. 模擬: 通過大語言模型模擬完整的推理路徑,并計算每個token的置信度,最終得到整體獎勵分數。

        4. 反向傳播: 將模擬結果(獎勵)反向傳播更新節點的統計信息。

        置信度分數的計算基于softmax函數,考慮了前5個候選token的對數概率,從而更準確地評估推理路徑的質量。

        3. 推理行動策略與反思機制

        Marco-o1 探索了兩種粒度的推理動作:step和mini-step。mini-step 策略通過更細粒度的動作,能夠探索到step策略可能忽略的更優解。此外,Marco-o1 引入了反思機制,通過提示模型自我反思,修正潛在錯誤,進一步提升了模型的準確性。

        4. 實驗結果與分析

        實驗結果表明,Marco-o1 在 MGSM 數據集上取得了顯著的性能提升,MCTS 的引入有效擴展了解空間,提高了模型解決復雜問題的概率。不同粒度的推理動作策略在不同數據集和任務上的表現有所差異,目前尚無絕對最佳策略。 在翻譯任務中,Marco-o1 也展現出了優于 Google Translate 的能力,尤其是在處理口語和俚語方面。

        5. 未來展望

        未來,研究團隊計劃通過結果獎勵建模 (ORM) 和過程獎勵建模 (PRM) 來完善 MCTS 的獎勵信號,并利用強化學習技術微調 Marco-o1 的決策過程,以進一步增強其處理復雜現實任務的能力。

        6. 第四屆全球自動駕駛峰會預告

        最后,文章還預告了將于1月14日在北京舉辦的第四屆全球自動駕駛峰會。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 色猫咪免费人成网站在线观看 | 永久免费毛片在线播放| 国产亚洲人成A在线V网站| 蜜臀亚洲AV无码精品国产午夜.| 一个人免费观看www视频在线| 亚洲人成网站在线观看播放青青| 最近免费视频中文字幕大全| 亚洲成年轻人电影网站www| 在线涩涩免费观看国产精品| 亚洲欧洲成人精品香蕉网| 中国国产高清免费av片| 国产亚洲精AA在线观看SEE| 国产成人免费ā片在线观看老同学| 中文字幕在线亚洲精品 | 亚洲AV无码乱码精品国产| 国产综合激情在线亚洲第一页| 日本无吗免费一二区| 精品免费AV一区二区三区| 亚洲国产成人五月综合网| 日本精品久久久久久久久免费| 久久亚洲色一区二区三区| 两个人看的www高清免费观看| 亚洲av午夜福利精品一区人妖| 久久久免费的精品| 亚洲图片中文字幕| 国产一区二区三区免费看| 精品国产福利尤物免费| 亚洲视频一区在线| 毛片免费观看的视频| 黄色a级片免费看| 亚洲AV日韩AV永久无码久久| 黄网站色在线视频免费观看| 亚洲AV无码一区二区三区电影| 婷婷亚洲天堂影院| 无码日韩精品一区二区三区免费| 亚洲av极品无码专区在线观看| 免费国产成人午夜电影| 久久国产精品国产自线拍免费| 亚洲同性男gay网站在线观看| 免费国产在线观看老王影院| 成人A片产无码免费视频在线观看|