<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        僅用 8 張顯卡和一萬塊錢,清華團隊用7B模型打敗GPT-4o數(shù)學推理

        AIGC動態(tài)8個月前發(fā)布 AI前線
        225 0 0

        OpenAI o1 和 o3 模型的發(fā)布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的 Scaling Law 逐漸受到質疑的今天,基于探索的強化學習有望帶來新的 Scaling Law.

        僅用 8 張顯卡和一萬塊錢,清華團隊用7B模型打敗GPT-4o數(shù)學推理

        原標題:僅用 8 張顯卡和一萬塊錢,清華團隊用7B模型打敗GPT-4o數(shù)學推理
        文章來源:AI前線
        內容字數(shù):4107字

        清華大合OpenBMB社區(qū)提出PRIME算法,低成本高效提升大模型數(shù)學推理能力

        本文總結了清華大學NLP實驗室聯(lián)合上海AI Lab等機構提出的PRIME (Process Reinforcement through IMplicit REwards) 算法及其應用成果。該算法通過結合隱式過程獎勵的強化學習方法,顯著提升了大模型的數(shù)學推理能力,并在成本和效率方面取得突破。

        1. 模仿學習的局限與強化學習的潛力

        傳統(tǒng)的基于模仿學習的大模型訓練方法依賴于高質量的大規(guī)模數(shù)據(jù),而高質量數(shù)據(jù)往往稀缺且昂貴。OpenAI的o1和o3模型的成功案例表明,強化學習方法有潛力克服模仿學習的局限,并帶來新的Scaling Law。

        2. PRIME算法的核心思想與優(yōu)勢

        PRIME算法的核心在于利用隱式過程獎勵模型 (PRM)。PRM 僅需最終結果的正確與否進行訓練,即可隱式地建模過程獎勵,從而避免了顯式設計獎勵函數(shù)的困難。這帶來了三大優(yōu)勢:

        1. 過程獎勵: PRM 為每個token提供價值估計,無需額外訓練價值模型。
        2. 可擴展性: PRM 可在線更新,有效緩解分布偏移和可擴展性問題。
        3. 簡潔性: PRM 可直接用初始策略模型初始化,易于使用和擴展。

        3. Eurus-2-7B-PRIME模型的突出表現(xiàn)

        研究人員利用Qwen2.5-Math-7B-Base作為基座模型,采用PRIME算法訓練出Eurus-2-7B-PRIME模型。該模型在AIME 2024(美國IMO選拔考試)上的準確率達到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的1/10。強化學習方法PRIME為模型帶來了16.7%的絕對提升。

        4. 低成本高效的訓練過程

        值得注意的是,Eurus-2-7B-PRIME模型的訓練僅使用了8張A100顯卡,花費約一萬人民幣,不到10天時間就完成了訓練,展現(xiàn)了PRIME算法的高效性與低成本優(yōu)勢。

        5. 開源項目的影響與未來展望

        該項目開源后在海外AI社區(qū)引起廣泛關注,GitHub獲得400+ star。未來,基于PRIME方法和更強的基座模型,有潛力訓練出接近OpenAI o1水平的模型。

        6. 強化學習的未來發(fā)展方向

        文章最后指出,強化學習是連接大模型與現(xiàn)實世界的重要橋梁,將對下一代人工智能發(fā)展起到重要作用。PRIME算法的成功,為解決大模型強化學習中的獎勵稀疏問題提供了一種新的思路,有望進一步提升大模型的復雜推理能力。


        聯(lián)系作者

        文章來源:AI前線
        作者微信:
        作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲欧美国产国产综合一区| 亚洲线精品一区二区三区 | 37pao成人国产永久免费视频| 亚洲国产人成精品| 日韩毛片免费一二三| 国产猛烈高潮尖叫视频免费| 亚洲中文字幕无码久久| 色窝窝免费一区二区三区| 国产成人精品亚洲2020| 毛片在线免费视频| 亚洲精品久久久久无码AV片软件| 成年女人毛片免费播放视频m| 亚洲无码一区二区三区| 日韩成人免费在线| 美女视频黄.免费网址 | 国产aⅴ无码专区亚洲av| 国产午夜成人免费看片无遮挡| 亚洲精品tv久久久久久久久| 日韩电影免费观看| 亚洲天堂一区二区三区| 毛片a级三毛片免费播放| 色噜噜的亚洲男人的天堂| 午夜亚洲av永久无码精品| 久久www免费人成看国产片| 国产精品亚洲精品日韩已方| 野花香在线视频免费观看大全 | 亚洲日产乱码一二三区别| 成人爱做日本视频免费| 一级日本高清视频免费观看| 亚洲国产精品一区二区久久hs| 永久在线免费观看| 亚洲精品无码成人片久久不卡| 亚洲国产成人久久精品99| a级毛片在线视频免费观看| 亚洲天堂福利视频| 四虎影视在线永久免费看黄| 中文字幕无码一区二区免费| 亚洲人成电影网站| 亚洲爽爽一区二区三区| 亚洲视频免费在线看| 羞羞漫画小舞被黄漫免费|