開源推理模型阿里Marco-o1技術(shù)細(xì)節(jié)全面解讀
OpenAI O1模型引發(fā)業(yè)界對大規(guī)模推理模型(large reasoning models ,LRM)研究的熱潮。前文評測結(jié)果顯示開源的Marco-o1效果不錯,甚至超越部分閉源產(chǎn)品。今天這篇小作文將全面介紹Marco-o1的技術(shù)細(xì)節(jié)。

原標(biāo)題:開源推理模型阿里Marco-o1技術(shù)細(xì)節(jié)全面解讀
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):14541字
Marco-o1:增強(qiáng)大型語言模型推理能力的創(chuàng)新探索
本文介紹了阿里國際數(shù)字化商業(yè)團(tuán)隊提出的Marco-o1模型,該模型旨在提升大型語言模型(LLM)在復(fù)雜現(xiàn)實問題求解中的推理能力。Marco-o1并非由阿里Qwen團(tuán)隊開發(fā),它著重于解決缺乏明確標(biāo)準(zhǔn)、難以量化獎勵的開放性問題,而非僅限于數(shù)學(xué)、物理和編程等具有標(biāo)準(zhǔn)答案的領(lǐng)域。
1. Marco-o1 的主要創(chuàng)新
Marco-o1的主要貢獻(xiàn)在于以下幾個方面:
基于思維鏈 (CoT) 的微調(diào): 通過對基礎(chǔ)模型Qwen2-7B-Instruct進(jìn)行全參數(shù)微調(diào),并結(jié)合開源和自主開發(fā)的CoT數(shù)據(jù)集,提升了模型處理復(fù)雜任務(wù)的能力。
蒙特卡羅樹搜索 (MCTS) 擴(kuò)展解空間: 將大語言模型與MCTS算法相結(jié)合,利用模型輸出置信度來指導(dǎo)搜索,擴(kuò)展了模型的解空間,從而找到更優(yōu)解。
創(chuàng)新的推理動作策略: 引入不同粒度的推理動作(step和mini-step),以及反思機(jī)制,顯著提高了模型解決復(fù)雜問題的能力。mini-step策略將推理步驟細(xì)分為32或64個token,允許更精細(xì)的推理路徑探索。
首次將LRM應(yīng)用于機(jī)器翻譯: 探索了推理時間縮放定律在多語言和翻譯領(lǐng)域的應(yīng)用,展現(xiàn)了Marco-o1在處理復(fù)雜翻譯任務(wù),特別是口語和俚語方面的優(yōu)勢。
2. MCTS 在 Marco-o1 中的應(yīng)用
Marco-o1 利用 MCTS 算法來擴(kuò)展其解空間。MCTS 的四個步驟——選擇、擴(kuò)展、模擬和反向傳播——在 Marco-o1 中被重新定義:
選擇: 基于節(jié)點的累計獎勵(置信度得分)和訪問次數(shù)選擇下一步推理。
擴(kuò)展: 使用大語言模型生成多個可能的下一步推理輸出,作為新的節(jié)點。
模擬: 通過大語言模型模擬完整的推理路徑,并計算每個token的置信度,最終得到整體獎勵分?jǐn)?shù)。
反向傳播: 將模擬結(jié)果(獎勵)反向傳播更新節(jié)點的統(tǒng)計信息。
置信度分?jǐn)?shù)的計算基于softmax函數(shù),考慮了前5個候選token的對數(shù)概率,從而更準(zhǔn)確地評估推理路徑的質(zhì)量。
3. 推理行動策略與反思機(jī)制
Marco-o1 探索了兩種粒度的推理動作:step和mini-step。mini-step 策略通過更細(xì)粒度的動作,能夠探索到step策略可能忽略的更優(yōu)解。此外,Marco-o1 引入了反思機(jī)制,通過提示模型自我反思,修正潛在錯誤,進(jìn)一步提升了模型的準(zhǔn)確性。
4. 實驗結(jié)果與分析
實驗結(jié)果表明,Marco-o1 在 MGSM 數(shù)據(jù)集上取得了顯著的性能提升,MCTS 的引入有效擴(kuò)展了解空間,提高了模型解決復(fù)雜問題的概率。不同粒度的推理動作策略在不同數(shù)據(jù)集和任務(wù)上的表現(xiàn)有所差異,目前尚無絕對最佳策略。 在翻譯任務(wù)中,Marco-o1 也展現(xiàn)出了優(yōu)于 Google Translate 的能力,尤其是在處理口語和俚語方面。
5. 未來展望
未來,研究團(tuán)隊計劃通過結(jié)果獎勵建模 (ORM) 和過程獎勵建模 (PRM) 來完善 MCTS 的獎勵信號,并利用強(qiáng)化學(xué)習(xí)技術(shù)微調(diào) Marco-o1 的決策過程,以進(jìn)一步增強(qiáng)其處理復(fù)雜現(xiàn)實任務(wù)的能力。
6. 第四屆全球自動駕駛峰會預(yù)告
最后,文章還預(yù)告了將于1月14日在北京舉辦的第四屆全球自動駕駛峰會。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

粵公網(wǎng)安備 44011502001135號