開源Llama版o1來了,3B小模型反超80B,逆向工程復(fù)現(xiàn)OpenAI新Scaling Law
1B小模型數(shù)學(xué)超過CS博士生平均分

原標題:開源Llama版o1來了,3B小模型反超80B,逆向工程復(fù)現(xiàn)OpenAI新Scaling Law
文章來源:量子位
內(nèi)容字數(shù):4547字
Hugging Face逆向工程OpenAI的Scaling Law新范式,大幅提升小模型性能
近日,Hugging Face團隊成功復(fù)現(xiàn)了OpenAI尚未公開實現(xiàn)細節(jié)的Scaling Law新范式,并開源了其擴展測試時計算的方法。該方法顯著提升了小模型在數(shù)學(xué)推理任務(wù)上的性能,甚至可以與更大規(guī)模的模型媲美。
1. 突破:小模型也能取得高分
通過應(yīng)用該方法,Llama 1B模型在數(shù)學(xué)分數(shù)上超過了8倍大的模型,也超過了計算機科學(xué)博士生的平均分數(shù)(40%)。Llama 3B模型的進步幅度更大,性能甚至可以與20多倍大的70B模型相媲美。這表明,通過高效的測試時計算策略,小模型也能在復(fù)雜任務(wù)中取得令人矚目的成績。
2. 核心技術(shù):多樣化驗證器樹搜索(DVTS)
Hugging Face團隊基于DeepMind的研究成果,開發(fā)了多樣化驗證器樹搜索(DVTS)方法。這是一種改進的Beam search變體,通過將初始Beam拆分為的子樹,并利用過程獎勵模型(PRM)進行貪婪擴展,提高了答案的多樣性和整體性能,尤其在算力預(yù)算充足的情況下。
3. 三種搜索策略對比
研究中對比了三種搜索策略:Best-of-N、Beam search和DVTS。Best-of-N策略生成多個答案并選擇分數(shù)最高的;Beam search系統(tǒng)地探索解決方案空間;DVTS則改進了Beam search的多樣性。實驗結(jié)果表明,DVTS在算力預(yù)算較大時性能最佳,而Beam search在算力預(yù)算較小時表現(xiàn)更好。最終,基于問題難度動態(tài)分配策略的方法取得了最佳成績。
4. 實驗設(shè)置與結(jié)果
實驗使用了Llama-3.2-1B-Instruct作為語言模型,Llama3.1-8B-PRM-Deepseek-Data作為過程獎勵模型,以及MATH-500數(shù)據(jù)集。結(jié)果顯示,加入獎勵模型后,所有策略的表現(xiàn)都有提高。加權(quán)版的Best-of-N策略優(yōu)于原版,DVTS則在解決復(fù)雜問題時表現(xiàn)突出。
5. 未來展望與挑戰(zhàn)
Hugging Face團隊指出,未來研究方向包括:開發(fā)更強大的驗證器,探索自我驗證機制,在生成過程中加入中間步驟,以及擴展到結(jié)構(gòu)性較差或評判標準主觀的任務(wù)。此外,目前開放的流程獎勵模型數(shù)量較少,需要開源社區(qū)的更多貢獻。
6. 網(wǎng)友評論
部分網(wǎng)友認為該方法更適合本地部署,而非API調(diào)用,因為多次調(diào)用小模型的成本可能高于調(diào)用一次大模型。也有網(wǎng)友建議在其他模型系列上進行嘗試。
總而言之,Hugging Face團隊的這項研究為提升小模型性能提供了新的思路,也為開源社區(qū)提供了寶貴的資源和經(jīng)驗。該方法的成功應(yīng)用,將有助于降低大模型的應(yīng)用門檻,促進AI技術(shù)的普及和發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號