張俊林從Deepseek R1看Scaling Law的未來

原標題：張俊林從Deepseek R1看Scaling Law的未來
文章來源：人工智能學家
內(nèi)容字數(shù)：16988字

大模型Scaling Law與S型智能增長曲線：一個思想實驗

本文探討了大模型發(fā)展中Scaling Law與S型智能增長曲線的關(guān)系，并提出了一些有趣的觀點和推論。作者認為Scaling Law并非無限增長，而是遵循S型曲線，并以此解釋大模型未來發(fā)展趨勢。

Scaling Law與S型曲線
文章核心觀點是：Scaling Law，無論預訓練、強化學習(RL)還是測試階段(Test Time)，都遵循S型增長曲線，而非無限增長。作者認為，目前對Scaling Law的理解較為表面化，其背后的秘密可能隱藏在多個S型曲線的疊加中。
作者用三個S型曲線分別代表大模型的三種核心能力：語言智能、世界知識智能和邏輯推理智能。這三種能力的學習難度不同，對應不同的S型曲線陡峭程度（K值）。語言智能學習最容易，曲線陡峭；邏輯推理智能學習最難，曲線平緩。大模型的整體智能是這三個S型曲線的疊加，最終仍然呈現(xiàn)S型。
預訓練階段的Scaling Law
作者提出“能力密度”猜想，認為決定某種能力S型曲線陡峭程度的關(guān)鍵因素是訓練數(shù)據(jù)中體現(xiàn)此能力的數(shù)據(jù)占比。語言能力數(shù)據(jù)占比高，“能力密度”大，所以學習容易；邏輯推理能力數(shù)據(jù)占比低，“能力密度”小，所以學習困難。因此，提升大模型智能的關(guān)鍵在于：增加代碼、數(shù)學等邏輯推理數(shù)據(jù)占比（提高“能力密度”）；將此類珍貴數(shù)據(jù)放在預訓練的最后階段（“退火”階段）。
三階段Scaling Law的疊加
文章將預訓練、RL和Test Time三個階段的Scaling Law分別對應一個S型曲線。預訓練階段曲線相對平緩，而RL和Test Time階段曲線陡峭，因為它們主要提升邏輯推理能力。這三個S型曲線的疊加，構(gòu)成了大模型整體智能的S型增長曲線。
作者認為，RL和Test Time階段的Scaling Law也最終會“撞墻”，未來的關(guān)鍵問題在于：何時撞墻？是否有新的Scaling Law出現(xiàn)？以及新的Scaling Law是什么？作者甚至提出了“大模型摩爾定律”的概念：通過技術(shù)創(chuàng)新，不斷產(chǎn)生新的S型Scaling Law子曲線，疊加到現(xiàn)有曲線中，維持大模型效果的持續(xù)提升。

總而言之，本文作者通過將S型曲線與Scaling Law結(jié)合，對大模型的未來發(fā)展提出了獨特的見解。雖然許多觀點是基于推論和假設(shè)，但其提出的“能力密度”猜想和對多階段Scaling Law疊加的分析，為我們理解大模型發(fā)展提供了一種新的視角，值得進一步研究和探討。

聯(lián)系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

張俊林從Deepseek R1看Scaling Law的未來

大模型Scaling Law與S型智能增長曲線：一個思想實驗

Scaling Law與S型曲線

預訓練階段的Scaling Law

三階段Scaling Law的疊加

聯(lián)系作者

DeepSeek-R1-ZERO 嘗試復現(xiàn)的一些現(xiàn)象分享

用DeepSeek搞錢，日賺百萬

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點