「小打大」在大語言模型領域越來越常見了。

原標題:3B模型長思考后擊敗70B!HuggingFace逆向出o1背后技術細節并開源
文章來源:機器之心
內容字數:11465字
Hugging Face開源小模型性能提升技術:超越大模型不再是夢
近日,Hugging Face 開源了一套通過擴展測試時計算來提升小模型性能的技術,成功讓小型語言模型在某些任務上超越了更大規模的模型,引發業界廣泛關注。這項技術主要基于 DeepMind 的研究成果,并結合 Hugging Face 自身開發的策略,實現了在計算資源有限的情況下顯著提升模型性能的目標。
1. 小模型的崛起:測試時計算擴展
隨著大語言模型訓練成本的急劇增加,人們開始關注提升小模型性能的替代方案——測試時計算擴展(test-time compute scaling)。該方法通過在推理階段增加計算量,例如給予模型更長的“思考時間”,來提高模型的準確性。OpenAI 的閉源模型 o1 就是一個成功的例子,它在困難的數學問題上展現了顯著的性能提升。Hugging Face 的研究則致力于開源并復現這一技術。
2. 核心策略:搜索與學習
Hugging Face 主要采用了基于搜索的策略來擴展測試時計算,主要包括三種方法:
Best-of-N:生成多個候選答案,并利用獎勵模型選擇得分最高的答案。進一步改進的加權 Best-of-N 方法則根據答案的出現頻率加權評分。
集束搜索:系統地探索解決方案空間,通過過程獎勵模型 (PRM) 逐步評估中間步驟,從而引導搜索過程。
多樣性驗證器樹搜索 (DVTS):Hugging Face 開發的集束搜索擴展,通過將初始集束拆分為子樹,提高了解決方案的多樣性,尤其在計算預算較大的情況下表現出色。
3. 實驗結果:小模型的驚艷表現
實驗結果顯示,在 MATH-500 數據集上,經過測試時計算擴展的 Llama 1B 和 3B 模型,在給予足夠“思考時間”的情況下,分別超越了 Llama 8B 和 70B 模型,這無疑是小模型領域的一次重大突破。
4. 計算最優擴展策略
Hugging Face 還引入了計算最優擴展策略,根據問題難度動態選擇最佳的搜索方法和超參數,以在給定的計算預算下獲得最佳性能。實驗表明,這種策略能夠進一步提升小模型的性能。
5. 未來展望:持續改進與探索
未來研究方向包括:開發更強大的獎勵模型,實現模型的自我驗證能力,將思維過程融入模型推理中,以及利用搜索策略生成高質量的訓練數據等。這些努力將進一步推動小模型性能的提升,降低大模型的開發和部署成本。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

粵公網安備 44011502001135號