總之,一切責任在馬斯克,Over。
原標題:張俊林:Grok 3是否意味著預訓練Scaling Law仍然成立?
文章來源:智猩猩GenAI
內容字數:6654字
DeepSeek與Grok 3:大模型Scaling Law的
本文探討了近期圍繞大模型Scaling Law的爭議,特別是DeepSeek和Grok 3的案例,分析了預訓練、RL和測試時間三種Scaling方法的性價比,并對Grok 3的巨大算力消耗提出了可能的解釋。
1. 預訓練階段的Scaling Law
1.1 預訓練階段的Scaling Law仍然成立,但當數據量達到瓶頸時,提升效果的性價比會顯著降低。這時,增加模型尺寸雖然能提升效果,但成本過高。
1.2 提升模型效果的Scaling方法性價比排序:Test time Scaling Law > RL Scaling Law > 預訓練階段Scaling Law。只有在沒有更高性價比方法時,才會選擇預訓練階段增加模型尺寸。
1.3 擁有更多GPU算力能加快實驗速度,提升創新效率,但并非訓練最佳模型的必要條件。
2. Grok 3基座模型
2.1 Grok 3的評測指標僅限于數學、科學和代碼數據集,缺乏通用能力(如MMLU)的對比,這可能暗示其通用能力提升有限。
2.2 提升基座模型在數學和代碼方面的能力,可以通過從高級模型(如DeepSeek R1)蒸餾深度思考過程數據(長COT數據)來實現,成本相對較低。
2.3 Grok 3的算力消耗是Grok 2的10倍,這可能是由于大幅增加了訓練數據量(例如,增加了大量多模態數據)或大幅增加了模型尺寸。
2.4 Grok 3可能采取了增加模型尺寸的“傳統”方法來提升基座模型能力,這種方法性價比低。
3. Grok 3邏輯推理版本
3.1 Grok 3的深度思考版本(對標DeepSeek R1)在評測指標上達到了領先水平。
3.2 Grok 3可能通過加大基座模型尺寸來提升RL階段Scaling的效果,從而提升深度思考版本的能力,即使這種做法性價比不高。
3.3 DeepSeek R1基座模型過大,部署困難,這可能也是因為基座模型尺寸不足會影響深度思考模型效果。
3.4 三種Scaling Law的性價比排序:Test Time > RL > Pre-Train。但如果基座模型尺寸會影響RL和Test Time Scaling 的天花板,則可能需要先提升Pre-Train階段的模型尺寸,再進一步提升RL和Test Time Scaling。
3.5 上述推論的前提是Grok 3的巨大算力消耗是經過深思熟慮的決策,而非僅僅基于舊觀念。
總而言之,文章認為預訓練階段的Scaling Law仍然有效,但性價比已不再是最佳選擇。RL和測試時間Scaling更具性價比,但它們的提升可能受限于基座模型的尺寸。Grok 3的大規模算力消耗可能源于其對基座模型尺寸與RL階段Scaling效果之間正相關關系的依賴。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。