開源Llama版o1來了，3B小模型反超80B，逆向工程復現OpenAI新Scaling Law

1B小模型數學超過CS博士生平均分

原標題：開源Llama版o1來了，3B小模型反超80B，逆向工程復現OpenAI新Scaling Law
文章來源：量子位
內容字數：4547字

Hugging Face逆向工程OpenAI的Scaling Law新范式，大幅提升小模型性能

近日，Hugging Face團隊成功復現了OpenAI尚未公開實現細節的Scaling Law新范式，并開源了其擴展測試時計算的方法。該方法顯著提升了小模型在數學推理任務上的性能，甚至可以與更大規模的模型媲美。

1. 突破：小模型也能取得高分

通過應用該方法，Llama 1B模型在數學分數上超過了8倍大的模型，也超過了計算機科學博士生的平均分數(40%)。Llama 3B模型的進步幅度更大，性能甚至可以與20多倍大的70B模型相媲美。這表明，通過高效的測試時計算策略，小模型也能在復雜任務中取得令人矚目的成績。

2. 核心技術：多樣化驗證器樹搜索(DVTS)

Hugging Face團隊基于DeepMind的研究成果，開發了多樣化驗證器樹搜索(DVTS)方法。這是一種改進的Beam search變體，通過將初始Beam拆分為的子樹，并利用過程獎勵模型(PRM)進行貪婪擴展，提高了答案的多樣性和整體性能，尤其在算力預算充足的情況下。

3. 三種搜索策略對比

研究中對比了三種搜索策略：Best-of-N、Beam search和DVTS。Best-of-N策略生成多個答案并選擇分數最高的；Beam search系統地探索解決方案空間；DVTS則改進了Beam search的多樣性。實驗結果表明，DVTS在算力預算較大時性能最佳，而Beam search在算力預算較小時表現更好。最終，基于問題難度動態分配策略的方法取得了最佳成績。

4. 實驗設置與結果

實驗使用了Llama-3.2-1B-Instruct作為語言模型，Llama3.1-8B-PRM-Deepseek-Data作為過程獎勵模型，以及MATH-500數據集。結果顯示，加入獎勵模型后，所有策略的表現都有提高。加權版的Best-of-N策略優于原版，DVTS則在解決復雜問題時表現突出。

5. 未來展望與挑戰

Hugging Face團隊指出，未來研究方向包括：開發更強大的驗證器，探索自我驗證機制，在生成過程中加入中間步驟，以及擴展到結構性較差或評判標準主觀的任務。此外，目前開放的流程獎勵模型數量較少，需要開源社區的更多貢獻。

6. 網友評論

部分網友認為該方法更適合本地部署，而非API調用，因為多次調用小模型的成本可能高于調用一次大模型。也有網友建議在其他模型系列上進行嘗試。

總而言之，Hugging Face團隊的這項研究為提升小模型性能提供了新的思路，也為開源社區提供了寶貴的資源和經驗。該方法的成功應用，將有助于降低大模型的應用門檻，促進AI技術的普及和發展。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # Llama-3B # 參數效率 # 小模型性能 # 模型縮放律 # 逆向工程

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

開源Llama版o1來了，3B小模型反超80B，逆向工程復現OpenAI新Scaling Law

1B小模型數學超過CS博士生平均分

Hugging Face逆向工程OpenAI的Scaling Law新范式，大幅提升小模型性能

1. 突破：小模型也能取得高分

2. 核心技術：多樣化驗證器樹搜索(DVTS)

3. 三種搜索策略對比

4. 實驗設置與結果

5. 未來展望與挑戰

6. 網友評論

聯系作者

線上分享| 面向機器人學習的數據高效觸覺表征

Sora：顛覆視覺體驗的4K高清盛宴，OpenAI如何重塑我們對物理世界的理解！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點