揭秘開(kāi)放式問(wèn)題推理的奧秘:Marco-o1如何引領(lǐng)未來(lái)思維變革
Marco-o1是一種旨在推進(jìn)開(kāi)放式問(wèn)題解決的大型推理模型 (LRM)。

原標(biāo)題:阿里國(guó)際版o1來(lái)了,Marco-o1:聚焦開(kāi)放式問(wèn)題推理
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5931字
Marco-o1: 開(kāi)放式問(wèn)題解決的大型推理模型
自OpenAI發(fā)布o(jì)1模型以來(lái),業(yè)界對(duì)其的追趕不斷加速。阿里巴巴國(guó)際數(shù)字商業(yè)集團(tuán)MarcoPolo團(tuán)隊(duì)在2023年11月22日發(fā)布了Marco-o1,旨在推進(jìn)開(kāi)放式問(wèn)題解決。這項(xiàng)研究仍在進(jìn)行中,期待進(jìn)一步改進(jìn)。
1. 研究背景與目標(biāo)
傳統(tǒng)的大型語(yǔ)言模型(LLM)在結(jié)構(gòu)化任務(wù)中表現(xiàn)出色,但在面對(duì)開(kāi)放式問(wèn)題時(shí)卻顯得力不從心。Marco-o1的目標(biāo)是超越這些結(jié)構(gòu)化挑戰(zhàn),實(shí)現(xiàn)跨多個(gè)領(lǐng)域的泛化,尤其是在沒(méi)有嚴(yán)格評(píng)估指標(biāo)的情況下。
2. 技術(shù)創(chuàng)新
Marco-o1集成了多種先進(jìn)技術(shù),包括思維鏈(CoT)微調(diào)、蒙特卡洛樹(shù)搜索(MCTS)和推理動(dòng)作策略,來(lái)增強(qiáng)其處理復(fù)雜問(wèn)題的能力。
3. 數(shù)據(jù)集與訓(xùn)練
研究者通過(guò)過(guò)濾和合成數(shù)據(jù)集來(lái)提升模型性能。Open-o1 CoT數(shù)據(jù)集經(jīng)過(guò)質(zhì)量過(guò)濾,Marco-o1 CoT數(shù)據(jù)集則通過(guò)MCTS生成,確保模型能夠有效采用結(jié)構(gòu)化推理模式。
4. 推理能力提升
實(shí)驗(yàn)結(jié)果顯示,Marco-o1在MGSM(英文)數(shù)據(jù)集上的準(zhǔn)確率提高了6.17%,在MGSM(中文)數(shù)據(jù)集上提高了5.60%。模型在翻譯任務(wù)中表現(xiàn)突出,能夠精準(zhǔn)理解和翻譯俚語(yǔ)表達(dá)。
5. MCTS與反思機(jī)制
Marco-o1將LLM與MCTS結(jié)合,節(jié)點(diǎn)代表推理狀態(tài),動(dòng)作通過(guò)LLM生成。通過(guò)計(jì)算置信度得分,該模型能夠擴(kuò)展解空間并選擇最優(yōu)路徑。同時(shí),引入反思機(jī)制以自我評(píng)估推理步驟,顯著提高了困難問(wèn)題的解決率。
6. 實(shí)驗(yàn)結(jié)果與未來(lái)方向
測(cè)試中,經(jīng)過(guò)MCTS增強(qiáng)的模型表現(xiàn)優(yōu)于傳統(tǒng)模型,但結(jié)果顯示出一定的隨機(jī)性。未來(lái)的研究將專(zhuān)注于優(yōu)化獎(jiǎng)勵(lì)機(jī)制,以進(jìn)一步發(fā)揮MCTS的潛力。
總結(jié)而言,Marco-o1在處理復(fù)雜開(kāi)放式問(wèn)題和推理任務(wù)方面展現(xiàn)了強(qiáng)大的能力,為未來(lái)的研究提供了新的方向和思路。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)