<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        超越DeepSeek推理,效率更高!斯坦福馬騰宇新作:有限數(shù)據(jù),無限迭代

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 新智元
        412 0 0

        超越DeepSeek推理,效率更高!斯坦福馬騰宇新作:有限數(shù)據(jù),無限迭代

        原標(biāo)題:超越DeepSeek推理,效率更高!斯坦福馬騰宇新作:有限數(shù)據(jù),無限迭代
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):5932字

        斯坦福大學(xué)提出自博弈定理證明器STP:解決大型語言模型推理能力瓶頸

        大型語言模型(LLM)的推理能力是當(dāng)前自然語言處理領(lǐng)域的核心難題,其主要瓶頸在于缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)。現(xiàn)有方法如強(qiáng)化學(xué)習(xí)和專家迭代,雖然能夠提升模型推理能力,但存在通過率低、計(jì)算資源浪費(fèi)嚴(yán)重等問題。斯坦福大學(xué)研究人員提出了一種名為自博弈定理證明器(STP)的新方法,有效解決了這些問題。

        1. STP的核心思想:模仿數(shù)學(xué)家的學(xué)習(xí)方式

          STP模仿數(shù)學(xué)家學(xué)習(xí)和發(fā)展數(shù)學(xué)的方式,讓模型同時(shí)扮演“猜想者”和“證明者”兩個(gè)角色,通過互相提供訓(xùn)練信號(hào),在有限的數(shù)據(jù)下實(shí)現(xiàn)無限自我改進(jìn)。猜想者提出新的猜想,證明者嘗試證明,驗(yàn)證器選擇正確的證明用于訓(xùn)練,從而形成一個(gè)閉環(huán)的自我迭代過程。

        2. STP的訓(xùn)練流程:五個(gè)步驟

          STP的訓(xùn)練流程包含五個(gè)步驟:1. 使用監(jiān)督微調(diào)(SFT)初始化模型;2. 猜想者生成新的猜想;3. 證明者嘗試證明猜想和未證明命題;4. 驗(yàn)證器驗(yàn)證證明的正確性并分配獎(jiǎng)勵(lì);5. 基于驗(yàn)證結(jié)果重新訓(xùn)練模型。其中,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是STP的核心技術(shù)難點(diǎn),旨在激勵(lì)猜想者生成多樣化、具有挑戰(zhàn)性但可行的猜想。

        3. STP的優(yōu)勢(shì):顯著提升證明成功率和推理速度

          實(shí)驗(yàn)結(jié)果表明,STP在Lean和Isabelle驗(yàn)證器上的表現(xiàn)顯著優(yōu)于現(xiàn)有方法。在LeanWorkbook數(shù)據(jù)集上,STP的證明成功率達(dá)到26.3%,是專家迭代方法的兩倍。在miniF2F-test、ProofNet-test和PutnamBench等公共基準(zhǔn)測(cè)試中,STP也實(shí)現(xiàn)了最先進(jìn)的性能,顯著提升了推理速度。

        4. STP的創(chuàng)新點(diǎn):無限自我改進(jìn)和高效利用數(shù)據(jù)

          STP的核心創(chuàng)新在于其自博弈機(jī)制,它能夠在有限的數(shù)據(jù)集上不斷生成新的猜想和證明,從而實(shí)現(xiàn)無限自我改進(jìn)。這種機(jī)制有效解決了現(xiàn)有方法中數(shù)據(jù)稀缺和計(jì)算資源浪費(fèi)的問題,并能夠逐漸提升猜想和證明的難度。

        5. STP的未來展望:推動(dòng)LLM推理能力發(fā)展

          STP為解決LLM推理能力瓶頸提供了一種新的思路,其高效的數(shù)據(jù)利用方式和強(qiáng)大的自我改進(jìn)能力,有望推動(dòng)LLM在數(shù)學(xué)推理等領(lǐng)域的應(yīng)用發(fā)展。未來的研究可以進(jìn)一步探索STP在其他領(lǐng)域(例如,程序驗(yàn)證、知識(shí)圖譜推理)的應(yīng)用,并改進(jìn)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),提升模型的性能和魯棒性。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲成av人片天堂网老年人| 全黄A免费一级毛片| 日韩一区二区a片免费观看| 亚洲熟妇无码一区二区三区导航| 免费国产成人午夜私人影视| 黄网站免费在线观看| ww亚洲ww在线观看国产| 国产成人亚洲综合无码| 四虎在线免费视频| 免费在线观看一区| 亚洲国色天香视频| 亚洲日韩VA无码中文字幕| 又黄又爽又成人免费视频| 老司机午夜免费视频| 亚洲成人高清在线观看| 亚洲午夜精品久久久久久浪潮 | 18亚洲男同志videos网站| 国产无遮挡裸体免费视频| 日本黄色动图免费在线观看| 亚洲AV无码一区二区三区电影| 亚洲午夜未满十八勿入网站2| 24小时免费直播在线观看| 最新久久免费视频| 久久精品国产亚洲AV电影网| 亚洲系列中文字幕| 亚洲精品无码99在线观看| 成年美女黄网站色大免费视频| 最新久久免费视频| 一级毛片在线播放免费| 亚洲一本一道一区二区三区| 亚洲视频在线观看一区| 精品亚洲一区二区三区在线播放| 妞干网免费观看视频| 亚洲精品免费在线视频| 毛片免费在线观看| WWW国产成人免费观看视频| 亚洲国产高清国产拍精品| 亚洲人成综合在线播放| 亚洲无线电影官网| 亚洲av永久无码精品秋霞电影影院| 亚洲伊人久久综合中文成人网|