<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        16張H100訓(xùn)26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測試時Scaling

        AIGC動態(tài)3個月前發(fā)布 新智元
        406 0 0

        16張H100訓(xùn)26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測試時Scaling

        原標(biāo)題:16張H100訓(xùn)26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測試時Scaling
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):6813字

        大模型推理新突破:1000個樣本即可超越閉源模型

        近年來,大模型推理能力的提升備受關(guān)注,然而普遍認(rèn)為這需要依賴海量數(shù)據(jù)和強(qiáng)大的算力。斯坦福大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)的研究人員近期發(fā)表的論文“s1: Simple test-time scaling”則提出了一種顛覆性方法,僅需1000個樣本就能訓(xùn)練出具有強(qiáng)大推理能力的模型,其性能甚至超越了OpenAI的閉源模型o1-preview。

        1. 高效的樣本利用:s1K數(shù)據(jù)集與監(jiān)督微調(diào)

          研究人員創(chuàng)建了一個名為s1K的數(shù)據(jù)集,包含1000個精心篩選的問題,涵蓋了多個領(lǐng)域和推理任務(wù),每個問題都配有推理軌跡和答案。他們利用這個數(shù)據(jù)集,僅用16張H100 GPU訓(xùn)練了26分鐘,就完成了對預(yù)訓(xùn)練模型的監(jiān)督微調(diào)(SFT),構(gòu)建了s1-32B模型。這極大地提高了樣本效率。

        2. 突破性技術(shù):預(yù)算(Budget Forcing)

          論文的核心在于一種名為“預(yù)算”的技術(shù)。該技術(shù)通過控制模型在測試時的計算量來提升推理性能。具體來說,它通過限制模型生成的推理token數(shù)量來控制推理的深度。如果生成的token超過上限,則結(jié)束推理;如果希望模型進(jìn)行更深入的推理,則可以添加“Wait” token,鼓勵模型繼續(xù)思考。這種方法可以引導(dǎo)模型進(jìn)行自我檢查,并修正推理過程中的錯誤。

        3. 測試時擴(kuò)展:性能隨計算量提升

          s1-32B模型展現(xiàn)了顯著的測試時擴(kuò)展能力,即其性能會隨著測試計算量的增加而提升。通過增加“Wait” token的數(shù)量,模型在多個基準(zhǔn)測試上的表現(xiàn)都有所提高,這與OpenAI閉源模型的測試時擴(kuò)展行為相符,但該研究僅使用1000個樣本就實現(xiàn)了這一突破。

        4. 超越閉源模型:樣本效率的極致

          s1-32B模型在多個基準(zhǔn)測試中超越了OpenAI的o1-preview等閉源模型,展現(xiàn)了其強(qiáng)大的推理能力。值得注意的是,DeepSeek r1-32B模型雖然性能更強(qiáng),但其使用了800倍的訓(xùn)練樣本。這充分證明了s1-32B模型在樣本效率方面的優(yōu)勢。

        5. 消融實驗:數(shù)據(jù)選擇標(biāo)準(zhǔn)的重要性

          研究人員進(jìn)行了大量的消融實驗,驗證了s1K數(shù)據(jù)集在質(zhì)量、難度和多樣性三個方面的選擇標(biāo)準(zhǔn)的重要性。結(jié)果表明,這三個因素的結(jié)合是實現(xiàn)樣本高效推理訓(xùn)練的關(guān)鍵。

        6. 未來方向:改進(jìn)預(yù)算和探索并行擴(kuò)展

          論文最后展望了未來的研究方向,包括改進(jìn)預(yù)算技術(shù),例如輪換使用不同的字符串或結(jié)合頻率懲罰;將預(yù)算應(yīng)用于強(qiáng)化學(xué)習(xí)訓(xùn)練的模型;探索新的測試時擴(kuò)展方法,例如結(jié)合并行擴(kuò)展方法,以進(jìn)一步提升模型性能。

        總而言之,該研究提出了一種簡單有效的方法,利用少量樣本和預(yù)算技術(shù),實現(xiàn)了強(qiáng)大的模型推理能力,為大模型訓(xùn)練和應(yīng)用提供了新的思路和方向。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产一级淫片视频免费看| 亚洲第一街区偷拍街拍| 免费一区二区视频| 波多野结衣中文字幕免费视频| 国产精品无码永久免费888| 亚洲欧好州第一的日产suv| 色拍自拍亚洲综合图区| 国产亚洲大尺度无码无码专线| 日本特黄a级高清免费大片| 69xx免费观看视频| 秋霞人成在线观看免费视频 | 特黄aa级毛片免费视频播放| 亚洲中文字幕无码av在线| 亚洲三级电影网站| 国产亚洲精AA在线观看SEE| 亚洲一级特黄大片无码毛片 | 亚洲AV日韩AV一区二区三曲| 亚洲一级黄色大片| 亚洲黄色片免费看| 亚洲AV日韩AV天堂久久| 亚洲精品国产美女久久久| 中文字幕日韩亚洲| 中文字幕亚洲一区二区va在线| mm1313亚洲精品国产| 免费看国产精品麻豆| 免费无遮挡无码永久在线观看视频| 女人让男人免费桶爽30分钟| 日本妇人成熟免费中文字幕| 69xx免费观看视频| 亚洲免费在线视频观看| 最近免费中文字幕mv在线电影| 久久久精品免费视频| 777爽死你无码免费看一二区| 国产精品免费AV片在线观看| 精品视频一区二区三区免费| 99久久免费国产特黄| 久久国产精品国产自线拍免费| 在线观看片免费人成视频无码| 一级毛片免费毛片一级毛片免费| 99久久免费中文字幕精品| 免费A级毛片无码A∨免费|