AIGC動態歡迎閱讀
原標題:Llama版o1來了,來自上海AI Lab,強化學習代碼已開源,基于AlphaGo Zero范式
關鍵字:報告,模型,團隊,過程,代碼
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI復刻OpenAI o1推理大模型,開源界傳來最新進展:
LLaMA版o1項目剛剛發布,來自上海AI Lab團隊。
簡介中明確:使用了蒙特卡洛樹搜索,Self-Play強化學習,PPO,以及AlphaGo Zero的雙重策略范式(先驗策略+價值評估)。
在2024年6月,o1發布之前,團隊就開始探索蒙特卡洛樹搜索提高大模型數學能力,積累了一些關注。
這次最新開源代碼,也在開發者社區引起熱議。
OpenAI o1系列發布后,團隊開始升級算法,專注于數學奧賽問題,作為OpenAI草莓項目的開源版本。
10月初,團隊上傳新論文,使用成對優化(不直接給出絕對分數,而是比較兩個答案的相對優劣)提高Llama模型數學奧賽能力。
在最難的AIME2024基準測試30道題中,原版LLaMA-3.1-8B-Instruct做對2道,優化后做對8道,超過了除o1-preview和o1-mini之外的其他商業閉源方案。
10月底,團隊宣布在基于AlphaGo Zero架構復刻OpenAI o1的努力中取得了重大進展:
已成功使模型在學習過程中通過與搜索樹交互獲
原文鏈接:Llama版o1來了,來自上海AI Lab,強化學習代碼已開源,基于AlphaGo Zero范式
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...