<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習與推理

        AIGC動態3個月前發布 量子位
        363 0 0

        上海交大、港中文、上海AI實驗室等最新成果

        簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習與推理

        原標題:簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習推理
        文章來源:量子位
        內容字數:6532字

        BoostStep:提升大語言模型數學推理能力的全新策略

        來自上海交通大學、香港中文大學和上海人工智能實驗室的研究人員提出了一種名為BoostStep的新策略,顯著提升了大語言模型 (LLM) 解決復雜數學問題的能力。該策略通過對齊上下文學習和推理的粒度,解決了傳統少樣本學習在多步推理中單步推理能力不足的問題,并在多個數學測試集上取得了顯著成果。

        1. 問題背景:單步推理是瓶頸

        大語言模型解決復雜數學問題通常采用多步推理策略,即將復雜問題分解為多個步驟逐步推理。研究人員發現,單步推理是當前模型推理能力的瓶頸。即使是先進的模型如GPT-4o,也有高達99.2%的錯誤源于單步推理,而非問題分解。

        2. 傳統上下文學習的局限性

        上下文學習通過引入相似例子來指導模型推理,但傳統的上下文學習以題目為粒度進行檢索和指導,這導致以下缺陷:

        1. 缺乏解決關鍵推理步驟所需的示例。
        2. 無關步驟甚至會對推理產生負面影響。
        3. 缺乏推理過程中的實時指導。

        3. BoostStep策略:步驟粒度的上下文學習

        BoostStep策略的核心在于將上下文學習的粒度從題目細化到每個推理步驟。它包含以下關鍵步驟:

        1. 步驟粒度題庫構建: 利用GPT-4o將解答過程分解成多個原子步驟,保證每個步驟包含一個完整的思維過程,避免簡單的語義分割造成的原子性破壞。
        2. “首次嘗試”檢索策略: 模型先進行一次零樣本嘗試,根據嘗試結果從題庫中檢索最相似的步驟,再進行正式推理,確保檢索到的例子與當前步驟高度相關。

        4. 實驗結果:顯著提升性能、潛力、泛化性和魯棒性

        BoostStep在多個數學測試集上表現出色:

        1. 性能提升: 在不同數學評測集上,為GPT-4o和Qwen2.5-Math-72B帶來了4.6%和2.2%的提升,遠超傳統少樣本學習。
        2. 潛力提升: 即使使用MATH數據集中的簡單示例,也能幫助Deepseek-R1在AIME競賽中獲得2.2%的提升。
        3. 泛化性提升: 即使例題與待解決問題不相似,BoostStep仍然能取得持續提升,優于傳統少樣本學習。
        4. 魯棒性提升: 對題庫相似度的敏感性較低,在檢索不匹配的情況下性能下降幅度較小。

        5. 擴展應用:與樹搜索策略結合

        BoostStep可以與樹搜索策略結合,進一步提升數學推理能力。通過在樹搜索的生成和篩選階段引入步驟樣例,可以獲得高達8.5%的額外提升。

        6. 結論

        BoostStep算法通過步驟粒度的上下文學習,有效提升了大語言模型的數學推理能力,在性能、潛力、泛化性和魯棒性方面均大幅優于傳統少樣本學習,并可與樹搜索算法結合,具有廣泛的應用前景。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产人成中文幕一级二级| 99在线视频免费| 亚洲色精品aⅴ一区区三区| 免费看一区二区三区四区| 亚洲国产成人无码av在线播放| 精品国产免费观看| 免费在线黄色电影| 亚洲日本乱码卡2卡3卡新区| 伊人婷婷综合缴情亚洲五月| 日韩免费精品视频| 亚洲黄片手机免费观看| 亚洲福利视频网址| 亚洲一区精品伊人久久伊人 | 无码国产精品一区二区免费虚拟VR| 亚洲乱亚洲乱妇无码| 亚洲AV无码久久| 永久中文字幕免费视频网站| 今天免费中文字幕视频| 久久精品国产亚洲AV| 久久精品a亚洲国产v高清不卡| 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 最新亚洲成av人免费看| 18禁超污无遮挡无码免费网站国产| fc2成年免费共享视频网站| 国产成人精品亚洲日本在线| 亚洲国产a∨无码中文777| 国产国产人免费视频成69大陆| 57pao一国产成视频永久免费| 一级毛片高清免费播放| 亚洲日本VA中文字幕久久道具| 亚洲自偷自拍另类12p| 中文字幕久久亚洲一区| 国产大片免费观看中文字幕| 青娱乐免费在线视频| 久久免费视频99| 久久一区二区免费播放| 日本高清不卡中文字幕免费| 亚洲日韩一区二区一无码| 亚洲春黄在线观看| 久久亚洲私人国产精品vA| 国产亚洲成av人片在线观看|