北理工啟航未來(lái):流星雨計(jì)劃助力大模型自我進(jìn)化的之路
這篇文章以代碼大模型和垂域大模型進(jìn)化為例,逐步介紹流星雨計(jì)劃。
原標(biāo)題:推動(dòng)大模型自我進(jìn)化,北理工推出「流星雨計(jì)劃」
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7932字
流星雨研究計(jì)劃概述
本文介紹了北京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院?jiǎn)?dòng)的流星雨研究計(jì)劃,旨在深入研究大模型自我進(jìn)化的理論與方法,以推動(dòng)大模型的發(fā)展。該計(jì)劃強(qiáng)調(diào)通過(guò)自主交互與環(huán)境的頻繁互動(dòng),促進(jìn)大模型能力的深度挖掘與擴(kuò)展。
一、自我進(jìn)化的核心思想
流星雨計(jì)劃以 SRA-MCTS(Self-driven Reasoning Augmentation with Monte Carlo Tree Search)為基礎(chǔ),提出了一種自我進(jìn)化的思路。研究者通過(guò)模型自身生成推理路徑,避免了對(duì)外部監(jiān)督的依賴(lài),從而提升代碼生成的能力。
二、SRA-MCTS 的創(chuàng)新方法
SRA-MCTS 方法的核心在于將推理過(guò)程與數(shù)據(jù)生成緊密結(jié)合。模型通過(guò)反復(fù)生成推理路徑并進(jìn)行自我訓(xùn)練,形成正向反饋循環(huán),進(jìn)而提升其在復(fù)雜任務(wù)中的成功率。實(shí)驗(yàn)表明,即使在小規(guī)模模型中,SRA-MCTS 也能顯著提升任務(wù)處理能力。
三、流星雨計(jì)劃的三階段框架
流星雨計(jì)劃的自我進(jìn)化框架包括三個(gè)關(guān)鍵階段:
- 導(dǎo)師監(jiān)督學(xué)習(xí):通過(guò) weak-to-strong 的領(lǐng)域數(shù)據(jù)蒸餾方法,模型首先生成指導(dǎo)步驟,強(qiáng)模型在此基礎(chǔ)上生成答案。
- 自我評(píng)估能力習(xí)得:模型在此階段通過(guò)更強(qiáng)模型的反饋進(jìn)行自我糾正,提升領(lǐng)域性能。
- 自我提升訓(xùn)練:模型在完成自我批判后,嘗試進(jìn)行自我進(jìn)化,利用不同推理策略的效果對(duì)比進(jìn)行自我訓(xùn)練。
四、研究成果與未來(lái)展望
通過(guò)應(yīng)用流星雨計(jì)劃,研究者在準(zhǔn)確性、完整性、相關(guān)性等維度上取得了顯著提升。未來(lái),研究團(tuán)隊(duì)將繼續(xù)探索更適用的自我進(jìn)化方法,以實(shí)現(xiàn)更廣泛的應(yīng)用并推廣流星雨計(jì)劃。
DIRECT LAB 期待與更多學(xué)者和業(yè)界同仁合作,共同推進(jìn)大模型進(jìn)化領(lǐng)域的探索與突破。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)