AReaL-boba – 螞蟻聯(lián)合清華開源的強化學(xué)習(xí)訓(xùn)練框架

AReaL-boba 是由螞蟻技術(shù)研究院與清華大學(xué)共同開發(fā)的一款開源強化學(xué)習(xí)訓(xùn)練框架。作為 AReaL 的升級版,AReaL-boba 顯著降低了強化學(xué)習(xí)的入門門檻,使用戶能夠輕松訓(xùn)練推理模型。該框架以其卓越的訓(xùn)練速度和對多種計算資源的支持,基于創(chuàng)新的優(yōu)化技術(shù),極大提高了訓(xùn)練的吞吐量。尤其在數(shù)學(xué)推理方面,7B 模型刷新了 AIME 分?jǐn)?shù)記錄。AReaL-boba 提供了開源的訓(xùn)練數(shù)據(jù)、腳本和模型,使用 200 條數(shù)據(jù)和 200 美金的成本便可復(fù)現(xiàn) QwQ-32B 的推理效果,推動了強化學(xué)習(xí)技術(shù)的普及化。
AReaL-boba是什么
AReaL-boba 是一款由螞蟻技術(shù)研究院和清華大合推出的開源強化學(xué)習(xí)訓(xùn)練框架。它是 AReaL 的改進(jìn)版本,旨在降低強化學(xué)習(xí)的使用門檻,使得用戶可以輕松上手進(jìn)行推理模型的訓(xùn)練。該框架具備快速訓(xùn)練的優(yōu)勢,支持多種計算資源,并通過創(chuàng)新的優(yōu)化手段顯著提升訓(xùn)練效率。其中,7B 模型在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,成功刷新了 AIME 基準(zhǔn)測試的記錄。AReaL-boba 提供了開源的訓(xùn)練數(shù)據(jù)、腳本和模型,用戶僅需 200 條數(shù)據(jù)和 200 美金便可復(fù)現(xiàn) QwQ-32B 的推理效果,推動了強化學(xué)習(xí)技術(shù)的廣泛應(yīng)用。
AReaL-boba的主要功能
- 高效訓(xùn)練:基于優(yōu)化和適配 SGLang 推理框架,極大提升了訓(xùn)練的吞吐量,支持從小規(guī)模到大規(guī)模的分布式訓(xùn)練。
- 推理能力提升:在數(shù)學(xué)推理等任務(wù)中表現(xiàn)卓越,7B 模型在 AIME 基準(zhǔn)測試中創(chuàng)造了同尺寸模型的新紀(jì)錄。
- 低資源訓(xùn)練:利用創(chuàng)新的數(shù)據(jù)蒸餾技術(shù),僅需 200 條數(shù)據(jù)即可復(fù)現(xiàn) QwQ-32B 的推理效果,顯著降低了訓(xùn)練成本。
- 完全開源:提供完整的代碼、數(shù)據(jù)集、訓(xùn)練腳本和評估腳本,確保可復(fù)現(xiàn)性,便于開發(fā)者使用和改進(jìn)。
AReaL-boba的技術(shù)原理
- 強化學(xué)習(xí):通過獎勵信號優(yōu)化模型行為,基于與環(huán)境的交互學(xué)習(xí)最優(yōu)策略。在語言模型中,強化學(xué)習(xí)用于優(yōu)化生成能力,使得模型在特定任務(wù)中表現(xiàn)更佳。
- SGLang 推理框架集成:AReaL-boba 是首個全面集成 SGLang 推理框架的開源訓(xùn)練系統(tǒng),SGLang 提供高效的推理能力,優(yōu)化了訓(xùn)練過程中的計算效率。
- 工程優(yōu)化:對訓(xùn)練流程進(jìn)行了多項工程優(yōu)化,包括并行計算和顯存管理等,提升了訓(xùn)練的整體吞吐量,各種模型尺寸均取得顯著的訓(xùn)練速度提升。
- 數(shù)據(jù)蒸餾技術(shù):基于創(chuàng)新的數(shù)據(jù)蒸餾方法,從大量數(shù)據(jù)中提取關(guān)鍵信息,簡化了訓(xùn)練數(shù)據(jù)的需求。
AReaL-boba的項目地址
- GitHub倉庫:https://github.com/inclusionAI/AReaL
- HuggingFace模型庫:https://huggingface.co/collections/inclusionAI/areal-boba
AReaL-boba的應(yīng)用場景
- 數(shù)學(xué)推理與教育:開發(fā)智能教育工具,輔助學(xué)生解決復(fù)雜的數(shù)學(xué)問題。
- 自然語言處理任務(wù):提升文本生成、問答系統(tǒng)、機(jī)器翻譯等應(yīng)用的性能。
- 智能體開發(fā):用于游戲、機(jī)器人控制等領(lǐng)域的智能體訓(xùn)練。
- 低資源模型訓(xùn)練:適合在數(shù)據(jù)資源有限的環(huán)境中進(jìn)行高效的模型訓(xùn)練。
- 學(xué)術(shù)研究與社區(qū)協(xié)作:作為研究工具,促進(jìn)學(xué)術(shù)交流與技術(shù)共享。
常見問題
- 如何開始使用 AReaL-boba?:可以訪問 GitHub 倉庫,獲取相關(guān)的代碼和文檔,按照指引進(jìn)行安裝和使用。
- 是否需要豐富的計算資源?:AReaL-boba 支持從小規(guī)模到大規(guī)模的訓(xùn)練,適合各種資源環(huán)境。
- 如何確保模型的復(fù)現(xiàn)性?:AReaL-boba 提供完整的訓(xùn)練數(shù)據(jù)和腳本,確保用戶能夠復(fù)現(xiàn)訓(xùn)練過程與結(jié)果。

粵公網(wǎng)安備 44011502001135號