小模型逆襲:3B挑戰(zhàn)80B,開源Llama版揭示新Scaling Law的秘密!
1B小模型數(shù)學(xué)超過CS博士生平均分
原標(biāo)題:開源Llama版o1來了,3B小模型反超80B,逆向工程復(fù)現(xiàn)OpenAI新Scaling Law
文章來源:量子位
內(nèi)容字?jǐn)?shù):4547字
Scaling Law新范式的突破與實(shí)驗(yàn)成果
在Hugging Face的最新研究中,Scaling Law的新范式在公開僅10天后便被逆向工程復(fù)現(xiàn),并在小模型Llama 1B上取得顯著成果,數(shù)學(xué)分?jǐn)?shù)超過了8倍大模型的表現(xiàn)。這一研究團(tuán)隊(duì)基于DeepMind的成果進(jìn)行了改進(jìn),探索了多樣化驗(yàn)證器樹搜索(DVTS)等新方法,以提升模型在復(fù)雜任務(wù)中的性能。
研究背景及方法
Hugging Face團(tuán)隊(duì)在Scaling Law的基礎(chǔ)上,提出了兩種主要的擴(kuò)展測(cè)試時(shí)計(jì)算策略:自我優(yōu)化和搜索。自我優(yōu)化依賴于模型的內(nèi)置能力來識(shí)別和糾正錯(cuò)誤,而搜索方法則生成多個(gè)候選答案,通過驗(yàn)證器選擇最佳答案。研究集中在搜索方法,因其靈活性和適應(yīng)性更強(qiáng)。
具體來說,研究使用了三種搜索策略:Best-of-N、Beam Search和DVTS。其中,Best-of-N策略通過生成多個(gè)響應(yīng)并評(píng)分,選擇得分最高的答案;Beam Search則結(jié)合過程獎(jiǎng)勵(lì)模型(PRM)進(jìn)行系統(tǒng)搜索;DVTS則通過將初始Beam拆分為子樹并進(jìn)行貪婪擴(kuò)展,增加了解決方案的多樣性。
實(shí)驗(yàn)設(shè)置與結(jié)果
實(shí)驗(yàn)使用Llama-3.2-1B-Instruct模型進(jìn)行,數(shù)據(jù)集選用MATH基準(zhǔn)測(cè)試的子集MATH-500。結(jié)果顯示,多數(shù)投票策略顯著優(yōu)于貪婪解碼基線,而引入獎(jiǎng)勵(lì)模型后的策略表現(xiàn)更加突出。DVTS方法的引入,尤其在處理簡(jiǎn)單和中等難度問題時(shí)表現(xiàn)更佳,最終動(dòng)態(tài)分配策略取得最佳成績(jī)。
未來展望與建議
研究團(tuán)隊(duì)指出,未來需要探索更強(qiáng)大的驗(yàn)證器,以提高模型的穩(wěn)健性和泛化能力。此外,結(jié)合結(jié)構(gòu)化推理與搜索過程,能夠在復(fù)雜任務(wù)中獲得更好的性能。而如何將該方法擴(kuò)展到結(jié)構(gòu)性較差或評(píng)判標(biāo)準(zhǔn)主觀的任務(wù)依然是一個(gè)重大挑戰(zhàn)。
網(wǎng)友們對(duì)此研究表示關(guān)注,認(rèn)為這種方法更適合本地部署而非API調(diào)用,并建議在其他模型上進(jìn)行嘗試。整體而言,這項(xiàng)研究為大模型的優(yōu)化提供了新的思路和方向。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破