斯坦福、Deepmind、劍橋聯合發文：推理 Scaling Up 的簡單技巧

原標題：斯坦福、Deepmind、劍橋聯合發文：推理 Scaling Up 的簡單技巧
文章來源：夕小瑤科技說
內容字數：5112字

大模型性能提升新思路：重復采樣方法

本文總結了近期關于提升大模型性能的一種新方法——重復采樣，并對其優缺點進行了分析。

1. 重復采樣的概念及優勢

傳統的大模型性能提升主要依靠調整模型本身，例如預訓練、微調等，這些方法成本較高。而重復采樣提供了一種新的思路：在不改變模型結構的情況下，通過增加推理計算量（多次采樣），來提高模型的輸出質量和準確率。其核心思想是：增加采樣次數，可以增加獲得正確答案的概率。這種方法的優勢在于簡單直接，無需大量數據和成本，便于快速驗證效果。

2. 相關研究及實驗結果

斯坦福、DeepMind、劍橋等機構的研究表明，重復采樣方法在多個數據集（如GSM8K、MATH、SWE-bench Lite等）上取得了顯著效果提升。例如，DeepSeek-Coder-V2-Instruct模型在SWE-bench Lite數據集上的準確率從15.9%提升到56%。該方法在不同模型規模、模型架構和訓練水平上都表現出一致的有效性。

3. 成本與性價比分析

重復采樣雖然提升了模型性能，但同時也增加了計算成本（FLOPs）。研究發現，單純依靠FLOPs衡量成本并不全面，因為批量處理和優化可以提高系統吞吐量。實驗結果顯示，在相同FLOPs下，不同模型規模的性能表現差異較大，最佳模型大小取決于任務、計算預算和覆蓋率要求。在資源有限的情況下，以增加推理時間為代價提升性能也是一種可行的策略。

4. 驗證器的作用及瓶頸

重復采樣會產生多個候選答案，需要驗證器來篩選出最佳答案。論文中提出了三種驗證器：多數投票、獎勵模型+最佳N個、獎勵模型+多數投票。實驗結果表明，驗證器的性能很大程度上限制了重復采樣的效果提升，覆蓋率的提高并不能直接轉化為最終的任務成功率，且驗證器在樣本數量增加時存在性能飽和現象。

5. 縮放定律及未來展望

研究人員試圖通過縮放定律來找到性能與計算成本的最佳平衡點。大多數任務和模型的覆蓋率與樣本數量之間符合指數冪定律，但也有例外情況。重復采樣方法的有效性已被證實，但其應用仍存在挑戰，例如驗證器的性能瓶頸。未來研究需要進一步探索更有效的驗證器，以及更精細的成本模型，以更好地指導大模型的推理優化。

6. 與其他方法的比較

有觀點認為，重復采樣方法類似于谷歌提出的O3優化策略的簡化版本。但無論如何，它提供了一種與傳統模型優化方法不同的思路，為提升大模型性能提供了新的選擇。

總而言之，重復采樣是一種有前景的大模型性能提升方法，但其效果受限于驗證器的性能，需要進一步研究以克服其局限性，并更好地平衡性能與成本。

聯系作者

文章來源：夕小瑤科技說
作者微信：
作者簡介：低負擔解碼AI世界，硬核也可愛！聚集35萬AI發燒友、開發者和從業者，廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文

# AIGC動態 # 分布式訓練優化 # 大型語言模型高效訓練 # 數據并行技術 # 模型并行策略 # 超大規模模型推理

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

斯坦福、Deepmind、劍橋聯合發文：推理 Scaling Up 的簡單技巧

大模型性能提升新思路：重復采樣方法

1. 重復采樣的概念及優勢

2. 相關研究及實驗結果

3. 成本與性價比分析

4. 驗證器的作用及瓶頸

5. 縮放定律及未來展望

6. 與其他方法的比較

聯系作者

2024年人工智能年終總結報告｜Artificial Analysis

“極限自救”中的 TikTok：太好了，是特朗普，我們有救了

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點