張俊林從Deepseek R1看Scaling Law的未來
原標題:張俊林從Deepseek R1看Scaling Law的未來
文章來源:人工智能學家
內(nèi)容字數(shù):16988字
大模型Scaling Law與S型智能增長曲線:一個思想實驗
本文探討了大模型發(fā)展中Scaling Law與S型智能增長曲線的關(guān)系,并提出了一些有趣的觀點和推論。作者認為Scaling Law并非無限增長,而是遵循S型曲線,并以此解釋大模型未來發(fā)展趨勢。
Scaling Law與S型曲線
文章核心觀點是:Scaling Law,無論預訓練、強化學習(RL)還是測試階段(Test Time),都遵循S型增長曲線,而非無限增長。作者認為,目前對Scaling Law的理解較為表面化,其背后的秘密可能隱藏在多個S型曲線的疊加中。
作者用三個S型曲線分別代表大模型的三種核心能力:語言智能、世界知識智能和邏輯推理智能。這三種能力的學習難度不同,對應不同的S型曲線陡峭程度(K值)。語言智能學習最容易,曲線陡峭;邏輯推理智能學習最難,曲線平緩。大模型的整體智能是這三個S型曲線的疊加,最終仍然呈現(xiàn)S型。
預訓練階段的Scaling Law
作者提出“能力密度”猜想,認為決定某種能力S型曲線陡峭程度的關(guān)鍵因素是訓練數(shù)據(jù)中體現(xiàn)此能力的數(shù)據(jù)占比。語言能力數(shù)據(jù)占比高,“能力密度”大,所以學習容易;邏輯推理能力數(shù)據(jù)占比低,“能力密度”小,所以學習困難。因此,提升大模型智能的關(guān)鍵在于:增加代碼、數(shù)學等邏輯推理數(shù)據(jù)占比(提高“能力密度”);將此類珍貴數(shù)據(jù)放在預訓練的最后階段(“退火”階段)。
三階段Scaling Law的疊加
文章將預訓練、RL和Test Time三個階段的Scaling Law分別對應一個S型曲線。預訓練階段曲線相對平緩,而RL和Test Time階段曲線陡峭,因為它們主要提升邏輯推理能力。這三個S型曲線的疊加,構(gòu)成了大模型整體智能的S型增長曲線。
作者認為,RL和Test Time階段的Scaling Law也最終會“撞墻”,未來的關(guān)鍵問題在于:何時撞墻?是否有新的Scaling Law出現(xiàn)?以及新的Scaling Law是什么?作者甚至提出了“大模型摩爾定律”的概念:通過技術(shù)創(chuàng)新,不斷產(chǎn)生新的S型Scaling Law子曲線,疊加到現(xiàn)有曲線中,維持大模型效果的持續(xù)提升。
總而言之,本文作者通過將S型曲線與Scaling Law結(jié)合,對大模型的未來發(fā)展提出了獨特的見解。雖然許多觀點是基于推論和假設(shè),但其提出的“能力密度”猜想和對多階段Scaling Law疊加的分析,為我們理解大模型發(fā)展提供了一種新的視角,值得進一步研究和探討。
聯(lián)系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)