<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習與推理

        AIGC動態7個月前發布 量子位
        378 0 0

        上海交大、港中文、上海AI實驗室等最新成果

        簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習與推理

        原標題:簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習推理
        文章來源:量子位
        內容字數:6532字

        BoostStep:提升大語言模型數學推理能力的全新策略

        來自上海交通大學、香港中文大學和上海人工智能實驗室的研究人員提出了一種名為BoostStep的新策略,顯著提升了大語言模型 (LLM) 解決復雜數學問題的能力。該策略通過對齊上下文學習和推理的粒度,解決了傳統少樣本學習在多步推理中單步推理能力不足的問題,并在多個數學測試集上取得了顯著成果。

        1. 問題背景:單步推理是瓶頸

        大語言模型解決復雜數學問題通常采用多步推理策略,即將復雜問題分解為多個步驟逐步推理。研究人員發現,單步推理是當前模型推理能力的瓶頸。即使是先進的模型如GPT-4o,也有高達99.2%的錯誤源于單步推理,而非問題分解。

        2. 傳統上下文學習的局限性

        上下文學習通過引入相似例子來指導模型推理,但傳統的上下文學習以題目為粒度進行檢索和指導,這導致以下缺陷:

        1. 缺乏解決關鍵推理步驟所需的示例。
        2. 無關步驟甚至會對推理產生負面影響。
        3. 缺乏推理過程中的實時指導。

        3. BoostStep策略:步驟粒度的上下文學習

        BoostStep策略的核心在于將上下文學習的粒度從題目細化到每個推理步驟。它包含以下關鍵步驟:

        1. 步驟粒度題庫構建: 利用GPT-4o將解答過程分解成多個原子步驟,保證每個步驟包含一個完整的思維過程,避免簡單的語義分割造成的原子性破壞。
        2. “首次嘗試”檢索策略: 模型先進行一次零樣本嘗試,根據嘗試結果從題庫中檢索最相似的步驟,再進行正式推理,確保檢索到的例子與當前步驟高度相關。

        4. 實驗結果:顯著提升性能、潛力、泛化性和魯棒性

        BoostStep在多個數學測試集上表現出色:

        1. 性能提升: 在不同數學評測集上,為GPT-4o和Qwen2.5-Math-72B帶來了4.6%和2.2%的提升,遠超傳統少樣本學習。
        2. 潛力提升: 即使使用MATH數據集中的簡單示例,也能幫助Deepseek-R1在AIME競賽中獲得2.2%的提升。
        3. 泛化性提升: 即使例題與待解決問題不相似,BoostStep仍然能取得持續提升,優于傳統少樣本學習。
        4. 魯棒性提升: 對題庫相似度的敏感性較低,在檢索不匹配的情況下性能下降幅度較小。

        5. 擴展應用:與樹搜索策略結合

        BoostStep可以與樹搜索策略結合,進一步提升數學推理能力。通過在樹搜索的生成和篩選階段引入步驟樣例,可以獲得高達8.5%的額外提升。

        6. 結論

        BoostStep算法通過步驟粒度的上下文學習,有效提升了大語言模型的數學推理能力,在性能、潛力、泛化性和魯棒性方面均大幅優于傳統少樣本學習,并可與樹搜索算法結合,具有廣泛的應用前景。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 无码专区AAAAAA免费视频| 成全动漫视频在线观看免费高清版下载 | 日本一道本不卡免费| 黄页网站免费在线观看| 永久中文字幕免费视频网站| 亚洲欧洲日本在线| 亚洲视频2020| 精品久久久久久亚洲中文字幕 | 有码人妻在线免费看片| 免费无码又爽又刺激高潮视频| 四虎永久在线精品免费影视| 亚洲日韩图片专区第1页| 免费视频精品一区二区三区| 亚洲AⅤ无码一区二区三区在线| 亚洲欧洲免费视频| 69av免费视频| 日本红怡院亚洲红怡院最新| 亚洲日韩国产AV无码无码精品| 中国精品一级毛片免费播放| 18禁成年无码免费网站无遮挡| 亚洲精品午夜国产VA久久成人| 亚洲爆乳无码专区www| 最近最好最新2019中文字幕免费| 思思re热免费精品视频66| 在线综合亚洲欧洲综合网站 | 麻豆高清免费国产一区| 亚洲人成7777影视在线观看| 你懂的免费在线观看| 亚洲欧洲日本在线| 性无码免费一区二区三区在线| 亚洲专区中文字幕| **aaaaa毛片免费| 亚洲伊人久久大香线蕉影院| 一级一级一片免费高清| 亚洲日韩国产二区无码| 免费无码国产在线观国内自拍中文字幕| 国产成人综合亚洲AV第一页 | 亚洲av日韩av永久在线观看| 亚洲色欲www综合网| 亚洲AV无码一区二区乱子伦| 亚洲综合色区在线观看|