張俊林：Grok 3是否意味著預訓練Scaling Law仍然成立？

總之，一切責任在馬斯克，Over。

原標題：張俊林：Grok 3是否意味著預訓練Scaling Law仍然成立？
文章來源：智猩猩GenAI
內容字數：6654字

本文探討了近期圍繞大模型Scaling Law的爭議，特別是DeepSeek和Grok 3的案例，分析了預訓練、RL和測試時間三種Scaling方法的性價比，并對Grok 3的巨大算力消耗提出了可能的解釋。

1.1 預訓練階段的Scaling Law仍然成立，但當數據量達到瓶頸時，提升效果的性價比會顯著降低。這時，增加模型尺寸雖然能提升效果，但成本過高。

1.2 提升模型效果的Scaling方法性價比排序：Test time Scaling Law > RL Scaling Law > 預訓練階段Scaling Law。只有在沒有更高性價比方法時，才會選擇預訓練階段增加模型尺寸。

1.3 擁有更多GPU算力能加快實驗速度，提升創新效率，但并非訓練最佳模型的必要條件。

2.1 Grok 3的評測指標僅限于數學、科學和代碼數據集，缺乏通用能力（如MMLU）的對比，這可能暗示其通用能力提升有限。

2.2 提升基座模型在數學和代碼方面的能力，可以通過從高級模型（如DeepSeek R1）蒸餾深度思考過程數據（長COT數據）來實現，成本相對較低。

2.3 Grok 3的算力消耗是Grok 2的10倍，這可能是由于大幅增加了訓練數據量（例如，增加了大量多模態數據）或大幅增加了模型尺寸。

2.4 Grok 3可能采取了增加模型尺寸的“傳統”方法來提升基座模型能力，這種方法性價比低。

3.1 Grok 3的深度思考版本（對標DeepSeek R1）在評測指標上達到了領先水平。

3.2 Grok 3可能通過加大基座模型尺寸來提升RL階段Scaling的效果，從而提升深度思考版本的能力，即使這種做法性價比不高。

3.3 DeepSeek R1基座模型過大，部署困難，這可能也是因為基座模型尺寸不足會影響深度思考模型效果。

3.4 三種Scaling Law的性價比排序：Test Time > RL > Pre-Train。但如果基座模型尺寸會影響RL和Test Time Scaling 的天花板，則可能需要先提升Pre-Train階段的模型尺寸，再進一步提升RL和Test Time Scaling。

3.5 上述推論的前提是Grok 3的巨大算力消耗是經過深思熟慮的決策，而非僅僅基于舊觀念。

總而言之，文章認為預訓練階段的Scaling Law仍然有效，但性價比已不再是最佳選擇。RL和測試時間Scaling更具性價比，但它們的提升可能受限于基座模型的尺寸。Grok 3的大規模算力消耗可能源于其對基座模型尺寸與RL階段Scaling效果之間正相關關系的依賴。

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...