突破極限:LLM能力密度驚人翻倍的Densing法則揭秘
大模型不僅有Scaling Law,還有Densing Law
原標(biāo)題:LLM最大能力密度100天翻一倍!清華劉知遠(yuǎn)團(tuán)隊提出Densing Law
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5265字
大模型的發(fā)展趨勢:Scaling Law與Densing Law
近期,AI領(lǐng)域針對大模型的Scaling Law(尺度定律)是否達(dá)到瓶頸產(chǎn)生了分歧。一方面,有觀點認(rèn)為Scaling Law已經(jīng)“撞墻”,無法繼續(xù)依賴數(shù)據(jù)和參數(shù)規(guī)模的堆疊來提升性能;而另一方面,OpenAI的CEO Sam Altman則認(rèn)為其潛力尚未窮盡。
1. Densing Law的提出
清華大學(xué)劉知遠(yuǎn)教授團(tuán)隊提出了新的概念——Densing Law(密度定律),該定律表明大模型的能力密度(即模型性能與參數(shù)規(guī)模的比率)隨時間以指數(shù)級增長。研究顯示,自2023年以來,大模型的能力密度約每3.3個月翻一倍,即每100天用一半的參數(shù)量即可實現(xiàn)當(dāng)前最優(yōu)模型的性能。
2. 重要推論
基于Densing Law,研究團(tuán)隊提出了以下幾個重要推論:
- 模型推理開銷隨時間指數(shù)級下降。
- 大模型能力密度正在加速增強(qiáng)。
- 模型小型化揭示了端側(cè)智能的巨大潛力。
- 無法僅依靠模型壓縮算法增強(qiáng)模型能力密度。
- 模型高性價比的有效期不斷縮短。
3. 能力密度的計算
研究團(tuán)隊引入了參考模型的概念,通過比較不同參數(shù)規(guī)模下模型的性能,建立了參數(shù)量與性能之間的映射關(guān)系。目標(biāo)模型的能力密度被定義為有效參數(shù)量與實際參數(shù)量的比值。
4. 未來的發(fā)展方向
Densing Law揭示了AI發(fā)展中的新階段,強(qiáng)調(diào)電力、算力與智力三大核心引擎的快速增長。隨著模型能力密度的提升,AI技術(shù)的可持續(xù)發(fā)展也提供了新的可能性,尤其是在邊緣計算與云計算的協(xié)同下,預(yù)計將實現(xiàn)“AI無處不在”的愿景。
綜上所述,清華大學(xué)的研究為大模型的發(fā)展提供了新的視角,強(qiáng)調(diào)能力密度的重要性,并指出未來在模型設(shè)計與應(yīng)用上需持續(xù)探索與創(chuàng)新。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺