<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        雙AI協(xié)作,數(shù)學(xué)成績(jī)飆升5分的神奇秘密!

        AIGC動(dòng)態(tài)6個(gè)月前發(fā)布 量子位
        410 0 0

        合作才能更強(qiáng)!互相糾錯(cuò)可提升LLM的數(shù)學(xué)能力。

        雙AI協(xié)作,數(shù)學(xué)成績(jī)飆升5分的神奇秘密!

        原標(biāo)題:微軟:兩個(gè)AI相互糾錯(cuò),數(shù)學(xué)再漲5分
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):5202字

        提升LLM數(shù)學(xué)能力的新方法:Flow-DPO

        最近,加州大學(xué)和微軟研究院提出了一種新的方法Flow-DPO,通過(guò)兩個(gè)大型語(yǔ)言模型(LLM)的合作,顯著提升了LLM在數(shù)學(xué)推理方面的能力。這一方法結(jié)合了在線學(xué)習(xí)流(Flow)和直接偏好優(yōu)化(DPO),旨在生成更詳細(xì)和精確的推理軌跡,解決傳統(tǒng)LLM在數(shù)學(xué)問(wèn)題上表現(xiàn)不佳的難題。

        1. 研究背景

        傳統(tǒng)的LLM在解決數(shù)學(xué)問(wèn)題時(shí),常常面臨反饋信息有限和標(biāo)注數(shù)據(jù)質(zhì)量不高的問(wèn)題。Flow-DPO通過(guò)引入兩個(gè)的LLM(Answer LLM和Stop LLM),實(shí)現(xiàn)了更高效的解題過(guò)程。

        2. 方

        Flow-DPO的工作流程可分為兩個(gè)部分:

        (1)增量輸出生成Flow:Answer LLM逐步生成答案塊,Stop LLM則判斷每個(gè)答案塊是否達(dá)到最終狀態(tài),兩個(gè)模型通過(guò)迭代學(xué)習(xí)不斷優(yōu)化。

        (2)在線Flow學(xué)習(xí)與回滾:在生成答案的過(guò)程中,Answer LLM會(huì)隨機(jī)生成不同的答案片段,并根據(jù)Stop LLM的反饋進(jìn)行調(diào)整,確保最終選擇的答案是最優(yōu)的。

        3. 實(shí)驗(yàn)結(jié)果

        研究團(tuán)隊(duì)在MetaMath數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),使用了兩種不同規(guī)模的模型:Llama-3-8B-Instruct和Phi-3-medium-128k-instruct。實(shí)驗(yàn)結(jié)果表明,F(xiàn)low-DPO顯著提升了模型的數(shù)學(xué)推理能力:

        (1)在漸進(jìn)驗(yàn)證準(zhǔn)確率方面,Llama-3-8B-Instruct的性能提高了20%,而Phi-3-medium-128k-instruct的準(zhǔn)確率提升了4個(gè)百分點(diǎn),達(dá)到了83%。

        (2)Flow生成的推理軌跡質(zhì)量?jī)?yōu)于基線模型,Llama-3-8B-Instruct在GSM8K和MATH數(shù)據(jù)集上的微調(diào)準(zhǔn)確率分別提高了6%和7.8%。

        4. 結(jié)論

        Flow-DPO的成功展示了兩個(gè)模型的合作能夠有效解決復(fù)雜數(shù)學(xué)問(wèn)題,提高了LLM的邏輯分析能力和推理質(zhì)量。隨著技術(shù)的進(jìn)步,未來(lái)的LLM有望在更多領(lǐng)域展現(xiàn)其潛力,解決更復(fù)雜的問(wèn)題。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 色播亚洲视频在线观看| 国产a级特黄的片子视频免费| 日韩精品免费在线视频| 中文永久免费观看网站| 成人毛片100免费观看| 999zyz**站免费毛片| 中文字幕无线码中文字幕免费| 国产精品美女久久久免费| 一个人看的免费视频www在线高清动漫 | 免费看国产精品3a黄的视频| 在线a免费观看最新网站| 永久在线观看www免费视频| 91精品免费观看| 久久免费看黄a级毛片| 色老头永久免费网站| 在线天堂免费观看.WWW| 成人毛片18岁女人毛片免费看| 夜夜爽免费888视频| 国产午夜免费福利红片| 亚洲国产精品日韩| 亚洲色成人WWW永久网站| 亚洲av永久无码精品表情包| 久久精品国产亚洲AV大全| 亚洲一级毛片在线观| 亚洲日本VA午夜在线影院| 日韩大片免费观看视频播放| 国产在线观a免费观看| 曰批视频免费40分钟试看天天| 久久久久久国产精品免费免费| 国产午夜免费福利红片| 伊人亚洲综合青草青草久热| 久久亚洲精品成人| 亚洲av无码国产综合专区| 美女被艹免费视频| 搡女人免费免费视频观看| 24小时日本韩国高清免费| 91在线视频免费播放| 亚洲成a人在线看天堂无码| 久久99国产亚洲高清观看首页| 亚洲精品高清国产麻豆专区| 亚洲日本一线产区和二线|