<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        o3并非獨(dú)門秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡單、成本更低

        AIGC動態(tài)5個月前發(fā)布 量子位
        237 0 0

        編碼任務(wù)性能最多提高40%。

        o3并非獨(dú)門秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡單、成本更低

        原標(biāo)題:o3并非獨(dú)門秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡單、成本更低
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):3798字

        谷歌DeepMind等團(tuán)隊(duì)研究:重復(fù)采樣提升大模型推理能力

        本文總結(jié)了斯坦福、牛津大學(xué)和谷歌DeepMind團(tuán)隊(duì)合作發(fā)表的一篇論文,該論文探討了通過重復(fù)采樣來擴(kuò)展大模型推理計(jì)算量的方法,并取得了顯著成果。論文名為“Monkey”,靈感源于無限猴子定理,其核心思想是:通過多次采樣生成多種候選答案,然后利用驗(yàn)證器選擇最佳答案,從而提升模型性能。

        1. 重復(fù)采樣方法

        該方法的核心步驟包括:首先,利用大模型為給定問題生成多個候選解;其次,使用特定領(lǐng)域的驗(yàn)證器(例如代碼的單元測試)從生成的樣本中篩選出最終答案。該方法的有效性取決于兩個關(guān)鍵因素:覆蓋率(隨著樣本數(shù)量增加,能夠解決的問題比例)和精確度(從樣本中識別正確答案的能力)。論文主要關(guān)注的是可以簡單判斷對錯的yes/no型任務(wù),以成功率(解決問題的比例)作為主要指標(biāo)。

        2. 實(shí)驗(yàn)結(jié)果與分析

        研究團(tuán)隊(duì)在五個數(shù)學(xué)和編程任務(wù)(GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite)上進(jìn)行了實(shí)驗(yàn)。結(jié)果表明:

        1. 覆蓋率隨著樣本數(shù)量的增加而顯著提升,在某些情況下,使用重復(fù)采樣的較弱模型甚至超越了單次嘗試性能更好的強(qiáng)大模型。
        2. 重復(fù)采樣具有成本效益。例如,使用Gemma-2B解決CodeContests編程問題時,覆蓋率提高了300倍以上。在固定FLOPs預(yù)算下,較小的Llama-3-8B-Instruct模型在某些任務(wù)上的覆蓋率高于更大的Llama-3-70B-Instruct模型。
        3. 開源模型DeepSeek-Coder-V2-Instruct在采樣較多時,其問題解決率可以達(dá)到與閉源模型GPT-4o相同的水平,但成本僅為后者的三分之一。
        4. 覆蓋率與樣本數(shù)之間通常遵循近似的冪律關(guān)系,在Llama-3和Gemma模型中表現(xiàn)為近似對數(shù)線性增長。
        5. 不同參數(shù)量、不同模型以及不同訓(xùn)練水平下,重復(fù)采樣都能有效提升覆蓋率。

        3. 與其他方法的比較

        有網(wǎng)友將該方法與o3方法進(jìn)行比較。o3通過回溯動態(tài)搜索程序空間,而重復(fù)采樣則依賴于靜態(tài)采樣和事后評價。兩者都能擴(kuò)展推理計(jì)算,但o3適應(yīng)性更強(qiáng),計(jì)算密集度更高,在需要結(jié)構(gòu)化推理的任務(wù)中表現(xiàn)出色;而重復(fù)采樣在編碼/數(shù)學(xué)方面更具成本效益。

        4. 局限性

        需要注意的是,增加采樣數(shù)量并非無限提升性能的良方。在某個臨界點(diǎn)之后,模型性能會趨于停滯,生成的樣本也會開始重復(fù)。因此,存在一個模型無法超越的最大思維水平。

        5. 總結(jié)

        這篇論文提出了一種基于重復(fù)采樣的推理計(jì)算擴(kuò)展方法,通過多次采樣和驗(yàn)證器篩選,顯著提升了大模型的推理能力和成本效益。該方法在多種模型和任務(wù)上都取得了成功,但同時也存在一定的局限性。未來研究可以進(jìn)一步探索如何優(yōu)化采樣策略,以及如何更好地處理樣本重復(fù)和性能瓶頸問題。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲免费在线视频播放| 亚洲高清在线视频| 亚洲一级免费毛片| 不卡视频免费在线观看| 亚洲第一se情网站| 亚洲欧洲日产专区| 国产亚洲精品资源在线26u| 免费在线观看理论片| 青苹果乐园免费高清在线| 久久国产精品萌白酱免费| fc2成年免费共享视频18| 韩国亚洲伊人久久综合影院| 亚洲av无码电影网| 久久精品亚洲中文字幕无码麻豆| 亚洲线精品一区二区三区影音先锋 | 色爽黄1000部免费软件下载| 中文字幕亚洲综合久久综合| 亚洲网站免费观看| 亚洲Aⅴ无码专区在线观看q| 亚洲色精品vr一区二区三区| 亚洲国产精品碰碰| 亚洲国产V高清在线观看| 手机看片久久国产免费| 最近免费中文字幕4| 野花高清在线观看免费3中文| 最近免费中文在线视频| 99精品视频免费在线观看| a级毛片免费播放| 两个人看的www高清免费视频| 大妹子影视剧在线观看全集免费| 一级看片免费视频| 亚洲国产一成久久精品国产成人综合 | 99爱在线观看免费完整版| 免费在线中文日本| 日本在线看片免费| 色欲国产麻豆一精品一AV一免费 | av无码免费一区二区三区| 一级特黄色毛片免费看| a毛片成人免费全部播放| 成人无码精品1区2区3区免费看| 国产精品美女免费视频观看|