1B小模型數學超過CS博士生平均分
原標題:開源Llama版o1來了,3B小模型反超80B,逆向工程復現OpenAI新Scaling Law
文章來源:量子位
內容字數:4547字
Scaling Law新范式的突破與實驗成果
在Hugging Face的最新研究中,Scaling Law的新范式在公開僅10天后便被逆向工程復現,并在小模型Llama 1B上取得顯著成果,數學分數超過了8倍大模型的表現。這一研究團隊基于DeepMind的成果進行了改進,探索了多樣化驗證器樹搜索(DVTS)等新方法,以提升模型在復雜任務中的性能。
研究背景及方法
Hugging Face團隊在Scaling Law的基礎上,提出了兩種主要的擴展測試時計算策略:自我優化和搜索。自我優化依賴于模型的內置能力來識別和糾正錯誤,而搜索方法則生成多個候選答案,通過驗證器選擇最佳答案。研究集中在搜索方法,因其靈活性和適應性更強。
具體來說,研究使用了三種搜索策略:Best-of-N、Beam Search和DVTS。其中,Best-of-N策略通過生成多個響應并評分,選擇得分最高的答案;Beam Search則結合過程獎勵模型(PRM)進行系統搜索;DVTS則通過將初始Beam拆分為子樹并進行貪婪擴展,增加了解決方案的多樣性。
實驗設置與結果
實驗使用Llama-3.2-1B-Instruct模型進行,數據集選用MATH基準測試的子集MATH-500。結果顯示,多數投票策略顯著優于貪婪解碼基線,而引入獎勵模型后的策略表現更加突出。DVTS方法的引入,尤其在處理簡單和中等難度問題時表現更佳,最終動態分配策略取得最佳成績。
未來展望與建議
研究團隊指出,未來需要探索更強大的驗證器,以提高模型的穩健性和泛化能力。此外,結合結構化推理與搜索過程,能夠在復雜任務中獲得更好的性能。而如何將該方法擴展到結構性較差或評判標準主觀的任務依然是一個重大挑戰。
網友們對此研究表示關注,認為這種方法更適合本地部署而非API調用,并建議在其他模型上進行嘗試。整體而言,這項研究為大模型的優化提供了新的思路和方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破