Llama版o1來了,來自上海AI Lab,強(qiáng)化學(xué)習(xí)代碼已開源,基于AlphaGo Zero范式
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Llama版o1來了,來自上海AI Lab,強(qiáng)化學(xué)習(xí)代碼已開源,基于AlphaGo Zero范式
關(guān)鍵字:報(bào)告,模型,團(tuán)隊(duì),過程,代碼
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI復(fù)刻OpenAI o1推理大模型,開源界傳來最新進(jìn)展:
LLaMA版o1項(xiàng)目剛剛發(fā)布,來自上海AI Lab團(tuán)隊(duì)。
簡介中明確:使用了蒙特卡洛樹搜索,Self-Play強(qiáng)化學(xué)習(xí),PPO,以及AlphaGo Zero的雙重策略范式(先驗(yàn)策略+價(jià)值評(píng)估)。
在2024年6月,o1發(fā)布之前,團(tuán)隊(duì)就開始探索蒙特卡洛樹搜索提高大模型數(shù)學(xué)能力,積累了一些關(guān)注。
這次最新開源代碼,也在開發(fā)者社區(qū)引起熱議。
OpenAI o1系列發(fā)布后,團(tuán)隊(duì)開始升級(jí)算法,專注于數(shù)學(xué)奧賽問題,作為OpenAI草莓項(xiàng)目的開源版本。
10月初,團(tuán)隊(duì)上傳新論文,使用成對優(yōu)化(不直接給出絕對分?jǐn)?shù),而是比較兩個(gè)答案的相對優(yōu)劣)提高Llama模型數(shù)學(xué)奧賽能力。
在最難的AIME2024基準(zhǔn)測試30道題中,原版LLaMA-3.1-8B-Instruct做對2道,優(yōu)化后做對8道,超過了除o1-preview和o1-mini之外的其他商業(yè)閉源方案。
10月底,團(tuán)隊(duì)宣布在基于AlphaGo Zero架構(gòu)復(fù)刻OpenAI o1的努力中取得了重大進(jìn)展:
已成功使模型在學(xué)習(xí)過程中通過與搜索樹交互獲
原文鏈接:Llama版o1來了,來自上海AI Lab,強(qiáng)化學(xué)習(xí)代碼已開源,基于AlphaGo Zero范式
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: