o3并非獨門秘技，谷歌已發背后關鍵機制，方法更簡單、成本更低

編碼任務性能最多提高40%。

原標題：o3并非獨門秘技，谷歌已發背后關鍵機制，方法更簡單、成本更低
文章來源：量子位
內容字數：3798字

谷歌DeepMind等團隊研究：重復采樣提升大模型推理能力

本文總結了斯坦福、牛津大學和谷歌DeepMind團隊合作發表的一篇論文，該論文探討了通過重復采樣來擴展大模型推理計算量的方法，并取得了顯著成果。論文名為“Monkey”，靈感源于無限猴子定理，其核心思想是：通過多次采樣生成多種候選答案，然后利用驗證器選擇最佳答案，從而提升模型性能。

1. 重復采樣方法

該方法的核心步驟包括：首先，利用大模型為給定問題生成多個候選解；其次，使用特定領域的驗證器（例如代碼的單元測試）從生成的樣本中篩選出最終答案。該方法的有效性取決于兩個關鍵因素：覆蓋率（隨著樣本數量增加，能夠解決的問題比例）和精確度（從樣本中識別正確答案的能力）。論文主要關注的是可以簡單判斷對錯的yes/no型任務，以成功率（解決問題的比例）作為主要指標。

2. 實驗結果與分析

研究團隊在五個數學和編程任務（GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite）上進行了實驗。結果表明：

覆蓋率隨著樣本數量的增加而顯著提升，在某些情況下，使用重復采樣的較弱模型甚至超越了單次嘗試性能更好的強大模型。
重復采樣具有成本效益。例如，使用Gemma-2B解決CodeContests編程問題時，覆蓋率提高了300倍以上。在固定FLOPs預算下，較小的Llama-3-8B-Instruct模型在某些任務上的覆蓋率高于更大的Llama-3-70B-Instruct模型。
開源模型DeepSeek-Coder-V2-Instruct在采樣較多時，其問題解決率可以達到與閉源模型GPT-4o相同的水平，但成本僅為后者的三分之一。
覆蓋率與樣本數之間通常遵循近似的冪律關系，在Llama-3和Gemma模型中表現為近似對數線性增長。
不同參數量、不同模型以及不同訓練水平下，重復采樣都能有效提升覆蓋率。

3. 與其他方法的比較

有網友將該方法與o3方法進行比較。o3通過回溯動態搜索程序空間，而重復采樣則依賴于靜態采樣和事后評價。兩者都能擴展推理計算，但o3適應性更強，計算密集度更高，在需要結構化推理的任務中表現出色；而重復采樣在編碼/數學方面更具成本效益。

4. 局限性

需要注意的是，增加采樣數量并非無限提升性能的良方。在某個臨界點之后，模型性能會趨于停滯，生成的樣本也會開始重復。因此，存在一個模型無法超越的最大思維水平。

5. 總結

這篇論文提出了一種基于重復采樣的推理計算擴展方法，通過多次采樣和驗證器篩選，顯著提升了大模型的推理能力和成本效益。該方法在多種模型和任務上都取得了成功，但同時也存在一定的局限性。未來研究可以進一步探索如何優化采樣策略，以及如何更好地處理樣本重復和性能瓶頸問題。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI模型壓縮技術 # O3替代方案 # 低成本AI模型訓練 # 谷歌O3優化機制 # 高效AI推理方法

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

o3并非獨門秘技，谷歌已發背后關鍵機制，方法更簡單、成本更低

編碼任務性能最多提高40%。

谷歌DeepMind等團隊研究：重復采樣提升大模型推理能力

1. 重復采樣方法

2. 實驗結果與分析

3. 與其他方法的比較

4. 局限性

5. 總結

聯系作者

李飛飛團隊視覺AI突破：2025，多模態大模型迎來“視覺空間智能”時代？

GPT-5 研發一年半進度堪憂！每輪 5 億美金訓練成本打水漂，還得雇人從頭“造數據”

相關文章

暫無評論

ChatGPT

玩虛擬模特？