小模型逆襲：3B挑戰(zhàn)80B，開源Llama版揭示新Scaling Law的秘密！

1B小模型數(shù)學(xué)超過CS博士生平均分

原標(biāo)題：開源Llama版o1來了，3B小模型反超80B，逆向工程復(fù)現(xiàn)OpenAI新Scaling Law
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4547字

Scaling Law新范式的突破與實(shí)驗(yàn)成果

在Hugging Face的最新研究中，Scaling Law的新范式在公開僅10天后便被逆向工程復(fù)現(xiàn)，并在小模型Llama 1B上取得顯著成果，數(shù)學(xué)分?jǐn)?shù)超過了8倍大模型的表現(xiàn)。這一研究團(tuán)隊(duì)基于DeepMind的成果進(jìn)行了改進(jìn)，探索了多樣化驗(yàn)證器樹搜索（DVTS）等新方法，以提升模型在復(fù)雜任務(wù)中的性能。

研究背景及方法

Hugging Face團(tuán)隊(duì)在Scaling Law的基礎(chǔ)上，提出了兩種主要的擴(kuò)展測(cè)試時(shí)計(jì)算策略：自我優(yōu)化和搜索。自我優(yōu)化依賴于模型的內(nèi)置能力來識(shí)別和糾正錯(cuò)誤，而搜索方法則生成多個(gè)候選答案，通過驗(yàn)證器選擇最佳答案。研究集中在搜索方法，因其靈活性和適應(yīng)性更強(qiáng)。

具體來說，研究使用了三種搜索策略：Best-of-N、Beam Search和DVTS。其中，Best-of-N策略通過生成多個(gè)響應(yīng)并評(píng)分，選擇得分最高的答案；Beam Search則結(jié)合過程獎(jiǎng)勵(lì)模型（PRM）進(jìn)行系統(tǒng)搜索；DVTS則通過將初始Beam拆分為子樹并進(jìn)行貪婪擴(kuò)展，增加了解決方案的多樣性。

實(shí)驗(yàn)設(shè)置與結(jié)果

實(shí)驗(yàn)使用Llama-3.2-1B-Instruct模型進(jìn)行，數(shù)據(jù)集選用MATH基準(zhǔn)測(cè)試的子集MATH-500。結(jié)果顯示，多數(shù)投票策略顯著優(yōu)于貪婪解碼基線，而引入獎(jiǎng)勵(lì)模型后的策略表現(xiàn)更加突出。DVTS方法的引入，尤其在處理簡(jiǎn)單和中等難度問題時(shí)表現(xiàn)更佳，最終動(dòng)態(tài)分配策略取得最佳成績(jī)。

未來展望與建議

研究團(tuán)隊(duì)指出，未來需要探索更強(qiáng)大的驗(yàn)證器，以提高模型的穩(wěn)健性和泛化能力。此外，結(jié)合結(jié)構(gòu)化推理與搜索過程，能夠在復(fù)雜任務(wù)中獲得更好的性能。而如何將該方法擴(kuò)展到結(jié)構(gòu)性較差或評(píng)判標(biāo)準(zhǔn)主觀的任務(wù)依然是一個(gè)重大挑戰(zhàn)。

網(wǎng)友們對(duì)此研究表示關(guān)注，認(rèn)為這種方法更適合本地部署而非API調(diào)用，并建議在其他模型上進(jìn)行嘗試。整體而言，這項(xiàng)研究為大模型的優(yōu)化提供了新的思路和方向。