16張H100訓(xùn)26分鐘，超越o1-preview！李飛飛等用1K樣本，揭秘測試時Scaling

原標(biāo)題：16張H100訓(xùn)26分鐘，超越o1-preview！李飛飛等用1K樣本，揭秘測試時Scaling
文章來源：新智元
內(nèi)容字?jǐn)?shù)：6813字

大模型推理新突破：1000個樣本即可超越閉源模型

近年來，大模型推理能力的提升備受關(guān)注，然而普遍認(rèn)為這需要依賴海量數(shù)據(jù)和強(qiáng)大的算力。斯坦福大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)的研究人員近期發(fā)表的論文“s1: Simple test-time scaling”則提出了一種顛覆性方法，僅需1000個樣本就能訓(xùn)練出具有強(qiáng)大推理能力的模型，其性能甚至超越了OpenAI的閉源模型o1-preview。

高效的樣本利用：s1K數(shù)據(jù)集與監(jiān)督微調(diào)
研究人員創(chuàng)建了一個名為s1K的數(shù)據(jù)集，包含1000個精心篩選的問題，涵蓋了多個領(lǐng)域和推理任務(wù)，每個問題都配有推理軌跡和答案。他們利用這個數(shù)據(jù)集，僅用16張H100 GPU訓(xùn)練了26分鐘，就完成了對預(yù)訓(xùn)練模型的監(jiān)督微調(diào)(SFT)，構(gòu)建了s1-32B模型。這極大地提高了樣本效率。
突破性技術(shù)：預(yù)算(Budget Forcing)
論文的核心在于一種名為“預(yù)算”的技術(shù)。該技術(shù)通過控制模型在測試時的計算量來提升推理性能。具體來說，它通過限制模型生成的推理token數(shù)量來控制推理的深度。如果生成的token超過上限，則結(jié)束推理；如果希望模型進(jìn)行更深入的推理，則可以添加“Wait” token，鼓勵模型繼續(xù)思考。這種方法可以引導(dǎo)模型進(jìn)行自我檢查，并修正推理過程中的錯誤。
測試時擴(kuò)展：性能隨計算量提升
s1-32B模型展現(xiàn)了顯著的測試時擴(kuò)展能力，即其性能會隨著測試計算量的增加而提升。通過增加“Wait” token的數(shù)量，模型在多個基準(zhǔn)測試上的表現(xiàn)都有所提高，這與OpenAI閉源模型的測試時擴(kuò)展行為相符，但該研究僅使用1000個樣本就實現(xiàn)了這一突破。
超越閉源模型：樣本效率的極致
s1-32B模型在多個基準(zhǔn)測試中超越了OpenAI的o1-preview等閉源模型，展現(xiàn)了其強(qiáng)大的推理能力。值得注意的是，DeepSeek r1-32B模型雖然性能更強(qiáng)，但其使用了800倍的訓(xùn)練樣本。這充分證明了s1-32B模型在樣本效率方面的優(yōu)勢。
消融實驗：數(shù)據(jù)選擇標(biāo)準(zhǔn)的重要性
研究人員進(jìn)行了大量的消融實驗，驗證了s1K數(shù)據(jù)集在質(zhì)量、難度和多樣性三個方面的選擇標(biāo)準(zhǔn)的重要性。結(jié)果表明，這三個因素的結(jié)合是實現(xiàn)樣本高效推理訓(xùn)練的關(guān)鍵。
未來方向：改進(jìn)預(yù)算和探索并行擴(kuò)展
論文最后展望了未來的研究方向，包括改進(jìn)預(yù)算技術(shù)，例如輪換使用不同的字符串或結(jié)合頻率懲罰；將預(yù)算應(yīng)用于強(qiáng)化學(xué)習(xí)訓(xùn)練的模型；探索新的測試時擴(kuò)展方法，例如結(jié)合并行擴(kuò)展方法，以進(jìn)一步提升模型性能。

總而言之，該研究提出了一種簡單有效的方法，利用少量樣本和預(yù)算技術(shù)，實現(xiàn)了強(qiáng)大的模型推理能力，為大模型訓(xùn)練和應(yīng)用提供了新的思路和方向。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文

# AIGC動態(tài)# AI模型訓(xùn)練成本 # H100訓(xùn)練效率 # 大模型Scaling測試 # 小樣本學(xué)習(xí)# 李飛飛團(tuán)隊研究

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

16張H100訓(xùn)26分鐘，超越o1-preview！李飛飛等用1K樣本，揭秘測試時Scaling

大模型推理新突破：1000個樣本即可超越閉源模型

高效的樣本利用：s1K數(shù)據(jù)集與監(jiān)督微調(diào)

突破性技術(shù)：預(yù)算(Budget Forcing)

測試時擴(kuò)展：性能隨計算量提升

超越閉源模型：樣本效率的極致

消融實驗：數(shù)據(jù)選擇標(biāo)準(zhǔn)的重要性

未來方向：改進(jìn)預(yù)算和探索并行擴(kuò)展

聯(lián)系作者

開源1760億參數(shù)通用醫(yī)學(xué)語言模型！北郵/北大/三峽大學(xué)提出MedFound，推理能力接近專家醫(yī)師

等不到 OpenAI 開源了！5 個工程師 24 小時手?jǐn)]免費版 Deep Research，效果直追正主、過程全公開

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點