OpenR是一個(gè)由倫敦大學(xué)學(xué)院(UCL)、上海交通大學(xué)、利物浦大學(xué)、香港科技大學(xué)(廣州)和西湖大學(xué)共同開(kāi)發(fā)的開(kāi)源訓(xùn)練框架,旨在提升大型語(yǔ)言模型(LLM)在復(fù)雜推理方面的能力。它將過(guò)程獎(jiǎng)勵(lì)模型(PRM)訓(xùn)練、強(qiáng)化學(xué)習(xí)和多種搜索策略巧妙整合,超越了傳統(tǒng)自回歸模型的方法。
OpenR是什么
OpenR是一個(gè)創(chuàng)新的開(kāi)源框架,旨在提升大型語(yǔ)言模型(LLM)的推理能力。該框架結(jié)合了搜索、強(qiáng)化學(xué)習(xí)和過(guò)程監(jiān)督的技術(shù),極大地改善了模型在推理過(guò)程中的表現(xiàn)。受OpenAI o1模型的啟發(fā),OpenR通過(guò)整合強(qiáng)化學(xué)習(xí)來(lái)顯著增強(qiáng)模型的推理能力。它是第一個(gè)提供集成技術(shù)開(kāi)源實(shí)現(xiàn)的平臺(tái),支持LLM在有效的數(shù)據(jù)獲取、訓(xùn)練和推理路徑上實(shí)現(xiàn)復(fù)雜的推理能力。OpenR具備在線(xiàn)強(qiáng)化學(xué)習(xí)訓(xùn)練的功能,并支持多種搜索策略,遵循測(cè)試時(shí)擴(kuò)展法則,使模型能夠在測(cè)試時(shí)生成或搜索以提供更精細(xì)的輸出。此外,OpenR還提供了一條自動(dòng)化的數(shù)據(jù)管道,從結(jié)果標(biāo)簽中提取推理步驟,降低人工標(biāo)注的工作量,同時(shí)確保有價(jià)值的推理信息的收集。
OpenR的主要功能
- 集成訓(xùn)練與推理:將數(shù)據(jù)獲取、強(qiáng)化學(xué)習(xí)訓(xùn)練(包括在線(xiàn)和離線(xiàn))及非自回歸解碼整合在一個(gè)統(tǒng)一的平臺(tái)上。
- 過(guò)程獎(jiǎng)勵(lì)模型(PRM):在訓(xùn)練階段利用策略?xún)?yōu)化技術(shù)改進(jìn)LLM策略,并在解碼階段引導(dǎo)LLM的搜索過(guò)程。
- 強(qiáng)化學(xué)習(xí)環(huán)境:將數(shù)學(xué)問(wèn)題建模為馬爾可夫決策過(guò)程(MDP),通過(guò)強(qiáng)化學(xué)習(xí)方法優(yōu)化模型策略。
- 多策略搜索與解碼:支持多種搜索算法,如Beam Search和Best-of-N,結(jié)合PRM進(jìn)行的引導(dǎo)搜索和評(píng)分。
- 數(shù)據(jù)增強(qiáng)與自動(dòng)化標(biāo)注:通過(guò)自動(dòng)化生成合成樣本,減少對(duì)人工標(biāo)注的依賴(lài),提高數(shù)據(jù)收集效率。
OpenR的技術(shù)原理
- 過(guò)程獎(jiǎng)勵(lì)模型(PRM):PRM用于評(píng)估解決方案步驟的準(zhǔn)確性,通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練,將正確與錯(cuò)誤的判定作為分類(lèi)標(biāo)簽,預(yù)測(cè)每一步的后續(xù)標(biāo)記。
- 策略迭代:在訓(xùn)練過(guò)程中,PRM通過(guò)策略?xún)?yōu)化技術(shù)如策略迭代改進(jìn)LLM策略,在解碼階段引導(dǎo)LLM的搜索過(guò)程,推動(dòng)推理朝向更有效的結(jié)果發(fā)展。
- 馬爾可夫決策過(guò)程(MDP):將數(shù)學(xué)問(wèn)題轉(zhuǎn)化為MDP,由狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)組成,模型通過(guò)生成推理步驟作為動(dòng)作,根據(jù)當(dāng)前狀態(tài)和動(dòng)作決定下一個(gè)狀態(tài)。
- 強(qiáng)化學(xué)習(xí):通過(guò)近端策略?xún)?yōu)化(PPO)和群體相對(duì)策略?xún)?yōu)化(GRPO)等算法進(jìn)行在線(xiàn)強(qiáng)化學(xué)習(xí)訓(xùn)練,優(yōu)化模型生成的語(yǔ)言輸出。
- 搜索算法:在解碼階段,使用PRM評(píng)估每個(gè)解決步驟的準(zhǔn)確性,結(jié)合語(yǔ)言模型進(jìn)行引導(dǎo)搜索和多次生成的評(píng)分或投票。
OpenR的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):openreasoner.github.io
- GitHub倉(cāng)庫(kù):https://github.com/openreasoner/openr
- 技術(shù)論文:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
OpenR的應(yīng)用場(chǎng)景
- 數(shù)學(xué)問(wèn)題求解:OpenR能夠解決數(shù)學(xué)問(wèn)題,通過(guò)生成和評(píng)估推理步驟,找到正確的解答路徑。
- 代碼生成與調(diào)試:在軟件開(kāi)發(fā)過(guò)程中,OpenR可幫助生成代碼片段,或在調(diào)試階段尋找和修正代碼中的錯(cuò)誤。
- 自然語(yǔ)言處理(NLP)任務(wù):OpenR適用于機(jī)器閱讀理解、問(wèn)答系統(tǒng)、文本摘要等需要深入理解文本和邏輯推理的NLP任務(wù)。
- 教育輔助:在教育領(lǐng)域,OpenR可作為輔助工具,幫助學(xué)生理解復(fù)雜的概念和解題步驟,提供個(gè)性化的學(xué)習(xí)路徑。
- 自動(dòng)化客戶(hù)服務(wù):在客戶(hù)服務(wù)領(lǐng)域,OpenR能夠基于推理用戶(hù)的問(wèn)題和需求,提供準(zhǔn)確的答案和解決方案。