清華一作1B暴打405B巨無霸，7B逆襲DeepSeek R1！測試時Scaling封神

原標題：清華一作1B暴打405B巨無霸，7B逆襲DeepSeek R1！測試時Scaling封神
文章來源：新智元
內容字數：9177字

1B模型完勝405B？測試時擴展（TTS）帶來LLM推理能力

近日，一篇來自清華、哈工大、北郵等機構的聯合論文在AI領域引發轟動。研究人員通過巧妙應用計算最優的測試時擴展（TTS）策略，實現了小模型“以小勝大”的突破性進展。該研究重新定義了測試時計算，并揭示了其在提升大語言模型（LLM）推理能力方面的巨大潛力。

1. 計算最優TTS策略：獎勵感知是關鍵

之前的研究表明，測試時擴展可以通過在推理時分配額外算力來增強LLM的推理能力。但如何最優地分配這些計算資源？研究人員發現，計算最優的TTS策略應當是獎勵感知的。他們將獎勵函數整合到策略中，使計算最優擴展能夠適應策略模型、提示詞和獎勵函數，從而提供更普適的框架。

2. 絕對問題難度標準勝過分位數

研究發現，使用基于Pass@1準確率的分位數來衡量問題難度并不有效。不同策略模型的推理能力差異導致了這一問題。因此，研究人員選擇使用基于Pass@1準確率的絕對閾值來定義問題難度等級：簡單、中等和困難。

3. PRM選擇與TTS策略的最佳組合

實驗結果表明，PRM（過程獎勵模型）的選擇對TTS的效果至關重要，最佳TTS策略會隨著使用的PRM而變化。PRM在不同策略模型和任務間的泛化能力是一個挑戰，尤其是在更復雜的任務上。研究發現，PRM的過程監督能力越強，其在TTS中通常能帶來更好的性能。最佳TTS方法（BoN或基于搜索的方法）也取決于策略模型的大小。

4. 小模型的逆襲：1B模型超越405B

研究人員通過實驗驗證了小模型在計算最優TTS策略下的巨大潛力。0.5B模型在數學任務上超越了GPT-4o；3B模型超越了405B模型；7B模型甚至勝過了o1和DeepSeek R1。這表明，小模型通過計算最優TTS策略，可以顯著提升推理性能，甚至超越大型模型。

5. 計算最優TTS與其他方法的比較

與CoT（思維鏈）和多數投票等方法相比，計算最優TTS的效率更高，推理性能也得到顯著提升。然而，隨著策略模型參數數量的增加，TTS的改進效果逐漸減小。這表明TTS的有效性與策略模型的推理能力密切相關。

6. TTS與基于長CoT方法的對比

研究表明，TTS比直接在MCTS生成數據上應用RL或SFT的方法更有效，但在更復雜的任務上效果不如從強大的推理模型中進行蒸餾的方法。

7. 結論

這項研究證明了計算最優TTS策略在增強LLM推理能力方面的巨大潛力。它為提升小模型性能，以及更有效地利用計算資源提供了新的思路，也為未來的LLM研究提供了重要的參考價值。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # 參數高效模型 # 大模型性能突破 # 小模型大能力 # 模型scaling規律 # 清華大學AI模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

清華一作1B暴打405B巨無霸，7B逆襲DeepSeek R1！測試時Scaling封神

1B模型完勝405B？測試時擴展（TTS）帶來LLM推理能力

1. 計算最優TTS策略：獎勵感知是關鍵

2. 絕對問題難度標準勝過分位數

3. PRM選擇與TTS策略的最佳組合

4. 小模型的逆襲：1B模型超越405B

5. 計算最優TTS與其他方法的比較

6. TTS與基于長CoT方法的對比

7. 結論

聯系作者

只需一句話，AI調用多個應用為你打工！三星S25系列國行版發布，AI功能大升級

“阿里是當下蘋果最好的選擇，甚至可能沒有之一”

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點