Scaling Law不是唯一視角！清華劉知遠(yuǎn)團(tuán)隊(duì)提出大模型“密度定律”：模型能力密度100天翻番

AIGC動(dòng)態(tài)5個(gè)月前發(fā)布人工智能學(xué)家

655 0 0

來(lái)源：量子位 | 公眾號(hào) QbitAI克雷西發(fā)自凹非寺Scaling Law并非描述大模型能力的唯一視角！清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì)，最新提出大模型的密度定律（densing law），表達(dá)形式讓人想到芯片領(lǐng)域的摩爾定律：模型能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng)，2023年以來(lái)能力密度約每3.3個(gè)月（約100天）翻一倍。根據(jù)密度定律，研究團(tuán)隊(duì)還得出以下重要推論——AI時(shí)代的三大核心引擎——電力、算力與智力，都同樣遵循密度快速增長(zhǎng)趨勢(shì)。為了發(fā)現(xiàn)這一結(jié)論，研究團(tuán)隊(duì)引入了一項(xiàng)衡量大模型性價(jià)比的新指標(biāo)——能力密度（capability density）。團(tuán)隊(duì)通過(guò)設(shè)置參考模型的方式，將“能力密度”定義為了“有效參數(shù)量”與實(shí)際參數(shù)量的比值。給定目標(biāo)模型后，其“有效參數(shù)量”被定義為實(shí)現(xiàn)與目標(biāo)模型一樣的效果，參考模型需要的最少參數(shù)量。論文第一作者肖朝軍表示，根據(jù)擬合曲線，到了明年年底，只要8B參數(shù)就能實(shí)現(xiàn)和GPT-4一樣的效果。論文地址：https://arxiv.org/abs/2412.04315大模型“能力密度”三個(gè)月翻一番大模型尺度定律（Scaling Law）和密度定律（Densing Law），都是大模型指導(dǎo)性的規(guī)律發(fā)現(xiàn)。它們分別在不同的維度，對(duì)大模型進(jìn)行科學(xué)化的推演。大模型尺度定律是一種描述大模型隨著規(guī)模的變化而發(fā)生的規(guī)律性變化的數(shù)學(xué)表達(dá)，表現(xiàn)為大模型的Loss與模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)規(guī)模之間的冪律關(guān)系。尺度定律之外，清華研究團(tuán)隊(duì)發(fā)現(xiàn)，大模型還有另一種度量與優(yōu)化的空間，能力密度（Capability Density），它為評(píng)估不同規(guī)模 LLM 的訓(xùn)練質(zhì)量提供了新的統(tǒng)一度量框架。清華研究團(tuán)隊(duì)提出的“能力密度”（Capability Density），定義為給定LLM的有效參數(shù)大小與實(shí)際參數(shù)大小的比率。有效參數(shù)大小指的是達(dá)到與目標(biāo)模型同等性能所需的參考模型的參數(shù)數(shù)量。清華研究團(tuán)隊(duì)特別引入了參考模型（Reference Model）的概念，通過(guò)擬合參考模型在不同參數(shù)規(guī)模下的性能表現(xiàn)，建立起參數(shù)量與性能之間的映射關(guān)系。具體來(lái)說(shuō)，若一個(gè)目標(biāo)模型M的參數(shù)量為NM ，其在下游任務(wù)上的性能分?jǐn)?shù)為SM，研究人員會(huì)計(jì)算出參考模型要達(dá)到相同性能所需的參數(shù)量 N(SM)，即“有效參數(shù)量”。目標(biāo)模型M的密度就定義為這個(gè)“有效參數(shù)量”與其實(shí)際參數(shù)量的比值：ρ(M) = N(SM)/NM。比如一個(gè)3B的模型能達(dá)到6B參考模型的性能，那么這個(gè)3B模型的能力密度就是2（6B/3B）。為了準(zhǔn)確估計(jì)模型性能，研究團(tuán)隊(duì)采用了兩步估計(jì)法。第一步是損失（Loss）估計(jì)，通過(guò)一系列不同規(guī)模的參考模型來(lái)擬合參數(shù)量與語(yǔ)言模型Loss之間的關(guān)系；第二步是性能估計(jì)，考慮到涌現(xiàn)能力的存在，研究人員結(jié)合開(kāi)源模型來(lái)計(jì)算它們的損失和性能，最終建立起完整的映射關(guān)系。通過(guò)研究分析近年來(lái)29個(gè)被廣泛使用的開(kāi)源大模型，清華研究團(tuán)隊(duì)發(fā)現(xiàn)，LLMs的最大能力密度隨時(shí)間呈指數(shù)增長(zhǎng)趨勢(shì)，可以用公式ln(ρmax) = At + B來(lái)描述.其中ρmax是時(shí)間t時(shí)LLMs的最大能力密度。密度定律表明，大約每過(guò)3.3個(gè)月（100天），就能用參數(shù)量減半的模型達(dá)到當(dāng)前最先進(jìn)模型的性能水平。ChatGPT發(fā)布后，能力密度增長(zhǎng)更快了基于密度法則，清華研究團(tuán)隊(duì)提出了多個(gè)重要推論。首先，模型推理開(kāi)銷(xiāo)隨時(shí)間指數(shù)級(jí)下降。2022年12月的GPT-3.5模型每百萬(wàn)Token的推理成本為20美元，而2024年8月的Gemini-1.5-Flash模型僅為0.075美元，成本降低了266倍，約2.5個(gè)月下降一倍。與此同時(shí)，大模型推理算法不斷取得新的技術(shù)突破——模型量化、投機(jī)采樣、顯存優(yōu)化。其次，研究還發(fā)現(xiàn)，自ChatGPT發(fā)布以來(lái)，大模型能力密度正在加速增強(qiáng)。以MMLU為評(píng)測(cè)基準(zhǔn)測(cè)量的能力密度變化情況，ChatGPT發(fā)布前按照每4.8倍增，發(fā)布后按照每3.2月倍增，密度增強(qiáng)速度增加50%。這一現(xiàn)象背后，更高效模型引起了學(xué)術(shù)界和產(chǎn)業(yè)的廣泛關(guān)注，誕生了更多高質(zhì)量開(kāi)源模型。再次，芯片電路密度（摩爾定律）和模型能力密度（密度定律）持續(xù)增強(qiáng)，兩條曲線交匯揭示端側(cè)智能巨大潛力。研究顯示，在摩爾定律的作用下，相同價(jià)格芯片的計(jì)算能力每2.1年翻倍，而密度法則表明模型的有效參數(shù)規(guī)模每3.3個(gè)月翻倍。兩條曲線的交匯，意味著主流終端如PC、手機(jī)將能運(yùn)行更高能力密度的模型，推動(dòng)端側(cè)智能在消費(fèi)市場(chǎng)普及。此外，團(tuán)隊(duì)指出，無(wú)法僅依靠模型壓縮算法增強(qiáng)模型能力密度。也就是說(shuō)，現(xiàn)有的模型壓縮技術(shù)（如剪枝和蒸餾）未必能提高模型密度。實(shí)驗(yàn)表明，大多數(shù)壓縮模型的密度低于原始模型，模型壓縮算法雖可以節(jié)省小參數(shù)模型構(gòu)建開(kāi)銷(xiāo)。但是如果后訓(xùn)練不充分，小參數(shù)模型能力密度非但不會(huì)增長(zhǎng)，反而會(huì)有顯著下降。最后，研究團(tuán)隊(duì)指出，模型高性價(jià)比有效期不斷縮短。根據(jù)尺度定律，更多數(shù)據(jù)+更多參數(shù)實(shí)現(xiàn)能力增強(qiáng)，訓(xùn)練成本會(huì)急劇上升；而能力密度定律，隨著能力密度加速增強(qiáng)，每隔數(shù)月會(huì)出現(xiàn)更加高效的模型。這意味著模型高性價(jià)比的有效使用期縮短，盈利窗口短暫。例如，2024年6月發(fā)布的Google Gemma-2-9B模型，其訓(xùn)練成本約185 萬(wàn)人民幣；但僅兩個(gè)月后，它的性能就被參數(shù)量減半的MiniCPM-3-4B超越。以API盈利方式估算，2個(gè)月內(nèi)需要17億次用戶訪問(wèn)，才能夠收回訓(xùn)練成本！尺度定律下，LLM規(guī)模至上。而在密度定律下，LLM正進(jìn)入一個(gè)全新的發(fā)展階段。在清華劉知遠(yuǎn)老師最新報(bào)告中，AI時(shí)代的三大核心引擎——電力、算力與智力，密度都在快速增長(zhǎng)：電池能量密度在過(guò)去20年中增長(zhǎng)了4倍，其倍增周期約為10年；摩爾定律則揭示，芯片的晶體管密度每18個(gè)月翻倍；而AI模型能力密度每100天翻倍的速度更是驚人。尤其是模型能力密度的提升也意味著用更少的資源實(shí)現(xiàn)更強(qiáng)的能力，這不僅降低了AI發(fā)展對(duì)能源和算力的需求，也為AI技術(shù)的可持續(xù)發(fā)展提供了無(wú)限可能。同時(shí)也揭示了端側(cè)智能的巨大潛力。在這一趨勢(shì)下，AI計(jì)算從中心端到邊緣端的分布式特性協(xié)同高效發(fā)展，將實(shí)現(xiàn)“AI無(wú)處不在”的愿景。作者預(yù)計(jì)，隨著全球AI計(jì)算云端數(shù)據(jù)中心、邊緣計(jì)算節(jié)點(diǎn)的擴(kuò)張，加上模型能力密度增長(zhǎng)帶來(lái)的效率提升，我們將看到更多本地化的AI模型涌現(xiàn)，云端和邊緣端各司其職，可運(yùn)行LLM的終端數(shù)量和種類大幅增長(zhǎng)，“AI 無(wú)處不在”的未來(lái)正在到來(lái)。論文地址：https://arxiv.org/abs/2412.04315閱讀報(bào)告全文，請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”https://wx.zsxq.com/group/454854145828未來(lái)知識(shí)庫(kù)是“歐米伽未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。截止到11月25日 ”未來(lái)知識(shí)庫(kù)”精選的100部前沿科技趨勢(shì)報(bào)告Air Street Capital《2024 年人工智能現(xiàn)狀報(bào)告》未來(lái)今日研究所：2024 技術(shù)趨勢(shì)報(bào)告 – 廣義計(jì)算篇科睿唯安中國(guó)科學(xué)院 2024 研究前沿?zé)岫戎笖?shù)報(bào)告文本到圖像合成：十年回顧《以人為中心的大型語(yǔ)言模型（LLM）研究綜述》經(jīng)合組織 2024 年數(shù)字經(jīng)濟(jì)展望報(bào)告加強(qiáng)連通性創(chuàng)新與信任第二版波士頓咨詢 2024 全球經(jīng)濟(jì)體 AI 成熟度矩陣報(bào)告理解世界還是預(yù)測(cè)未來(lái)？世界模型的綜合綜述Google Cloud CSA2024 AI 與安全狀況調(diào)研報(bào)告英國(guó)制造商組織 MakeUK2024 英國(guó)工業(yè)戰(zhàn)略愿景報(bào)告從概念到實(shí)施花旗銀行 CitiGPS2024 自然環(huán)境可持續(xù)發(fā)展新前沿研究報(bào)告國(guó)際原子能機(jī)構(gòu) 2024 聚變關(guān)鍵要素報(bào)告 – 聚變能發(fā)展的共同愿景國(guó)際可再生能源署 IRENA2024 年全球氣候行動(dòng)報(bào)告Cell: 物理學(xué)和化學(xué) 、人工智能知識(shí)領(lǐng)域的融合智次方 2025 中國(guó) 5G 產(chǎn)業(yè)全景圖譜報(bào)告未來(lái)今日研究所：2024 技術(shù)趨勢(shì)報(bào)告 – 移動(dòng)性，機(jī)器人與無(wú)人機(jī)篇Deepmind：AI 加速科學(xué)創(chuàng)新發(fā)現(xiàn)的黃金時(shí)代報(bào)告PitchBookNVCA2024 年第三季度全球風(fēng)險(xiǎn)投資監(jiān)測(cè)報(bào)告德科 2024 年未來(lái)全球勞動(dòng)力報(bào)告高工咨詢 2024 年協(xié)作機(jī)器人產(chǎn)業(yè)發(fā)展藍(lán)皮書(shū)國(guó)際能源署 IEA2024 年全球能源效率報(bào)告基因慧基因行業(yè)藍(lán)皮書(shū) 2024 – 2025普華永道 PwC2024 全球經(jīng)濟(jì)犯罪調(diào)查英國(guó)報(bào)告 – 智對(duì)風(fēng)險(xiǎn)直面挑戰(zhàn)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì) 2024 面向未來(lái)網(wǎng)絡(luò)的數(shù)字孿生城市場(chǎng)景應(yīng)用白皮書(shū)中移智庫(kù) 2024 先進(jìn)感知新技術(shù)及新應(yīng)用白皮書(shū)智次方研究院 2025 中國(guó) AIoT 產(chǎn)業(yè)全景圖譜報(bào)告未來(lái)今日研究所：2024 技術(shù)趨勢(shì)報(bào)告 – 人工智能篇國(guó)際電聯(lián)：邁向衡量數(shù)字經(jīng)濟(jì)的通用框架的路線圖聯(lián)合國(guó)糧食與農(nóng)業(yè)組織：2024 年世界糧食安全和營(yíng)養(yǎng)狀況大語(yǔ)言模型綜述李飛飛等，AI 智能體：探索多模式交互的前景綜述哈爾濱工業(yè)大學(xué) – ChatGPT 調(diào)研報(bào)告2024《美國(guó)核部署戰(zhàn)略報(bào)告》最新文件清華大學(xué)：AIGC 發(fā)展研究 3.0 發(fā)布版 b 版OpenAI：2024 年 OpenAI o1 大模型技術(shù)報(bào)告Verizon2024 年世界支付安全報(bào)告皇家學(xué)會(huì)哲學(xué)學(xué)報(bào) 從復(fù)雜系統(tǒng)角度評(píng)估人工智能風(fēng)險(xiǎn)復(fù)旦大學(xué) 大模型 AI 代理的興起和潛力：綜述經(jīng)合組織 OECD2024 年氣候行動(dòng)監(jiān)測(cè)報(bào)告Wevolver2024 年邊緣人工智能現(xiàn)狀報(bào)告 – 探索各行業(yè)邊緣 AI 應(yīng)用動(dòng)態(tài)2024 全球人形機(jī)器人產(chǎn)品數(shù)據(jù)庫(kù)報(bào)告 – 人形機(jī)器人洞察研究 BTIResearch《全球金融穩(wěn)定報(bào)告》把舵定航不確定性、人工智能與金融穩(wěn)定瑞士洛桑聯(lián)邦理工學(xué)院《人工智能中的 – 創(chuàng)造力：進(jìn)展與挑戰(zhàn)》《你所需要知道的理 – 論：人工智能、人類認(rèn)知與決策》牛津大學(xué)最新 53 頁(yè)報(bào)告世界經(jīng)濟(jì)論壇新興技術(shù)時(shí)代的網(wǎng)絡(luò)彈性導(dǎo)航：應(yīng)對(duì)復(fù)雜挑戰(zhàn)的協(xié)作解決方案 2024ADL 理特咨詢 2024 汽車(chē)出行未來(lái)展望報(bào)告2024 中國(guó)硬科技創(chuàng)新發(fā)展白皮書(shū) – 開(kāi)辟未來(lái)產(chǎn)業(yè)新賽道科學(xué)時(shí)代的大語(yǔ)言模型中的人工智能Gartner2025 年重要戰(zhàn)略技術(shù)趨勢(shì)報(bào)告CBInsights2024 年第三季度全球人工智能投融資狀況報(bào)告TrendHunter2025 年全球趨勢(shì)報(bào)告 – 全行業(yè)頂級(jí)創(chuàng)新和變革趨勢(shì)前瞻天津大學(xué) 2024 大模型輕量化技術(shù)研究報(bào)告歐洲海洋局 2024 導(dǎo)航未來(lái)報(bào)告將海洋置于更廣泛的地球系統(tǒng)中第六版美國(guó)安全與新興技術(shù)中心 2024 AI 生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)研究報(bào)告國(guó)際原子能機(jī)構(gòu) 2024 年世界聚變展望報(bào)告復(fù)旦大學(xué) 2024 大語(yǔ)言模型的能力邊界與發(fā)展思考報(bào)告安盛 AXA2024 年氣候與生物多樣性報(bào)告氣候過(guò)渡計(jì)劃路線圖YouGov2024 美國(guó)公眾對(duì)人工智能 AI 的態(tài)度調(diào)研報(bào)告麥肯錫中國(guó)報(bào)告：《中國(guó)與世界》完整版麥肯錫全球研究所 2024 下一代競(jìng)技場(chǎng)報(bào)告 – 重塑全球經(jīng)濟(jì)的 18 個(gè)新興行業(yè)領(lǐng)域Project Sid，一個(gè)旨在模擬多智能體交互以研究 AI 文明的項(xiàng)目德國(guó)研究與創(chuàng)新專家委員會(huì) 德國(guó)研究創(chuàng)新與科技成果報(bào)告2024 年歐洲關(guān)鍵產(chǎn)業(yè)的科技重塑研究報(bào)告智能體專題報(bào)告之二 – 智能體時(shí)代來(lái)臨具身智能有望成為最佳載體ActivateConsulting 2025 年頂級(jí)技術(shù)和媒體發(fā)展趨勢(shì)報(bào)告蘭德全球?yàn)?zāi)難風(fēng)險(xiǎn)評(píng)估斯坦福李飛飛《AI agent 綜述》Agent AI 開(kāi)啟多模態(tài)交互新紀(jì)元中國(guó)聯(lián)通研究院 2024 中國(guó)生成式人工智能應(yīng)用與實(shí)踐展望白皮書(shū)中文版普華永道 2024 第五次工業(yè)研究報(bào)告邁向彈性可持續(xù)和以人為本的未來(lái)大成 Dentsons2024 年全球智慧城市與互聯(lián)社區(qū)智庫(kù)年度報(bào)告TechUK2024 量子技術(shù)挑戰(zhàn)與機(jī)遇并存構(gòu)筑量子韌性的策略與實(shí)踐研究報(bào)告Emakina 將塑造 2024 年的技術(shù)趨勢(shì)報(bào)告圖靈獎(jiǎng)得主 Yann LeCun《機(jī)器如何才能達(dá)到人類智能水平？》——Yann LeCun，附 Slides 及視頻華為：2024 鴻蒙生態(tài)應(yīng)用開(kāi)發(fā)白皮書(shū) V3.0（最新版）CASA：2023 第三代半導(dǎo)體產(chǎn)業(yè)發(fā)展報(bào)告大型視覺(jué)語(yǔ)言模型中幻覺(jué)現(xiàn)象的綜述IEA PVPS：2024 光伏應(yīng)用趨勢(shì)報(bào)告（英文版）ABI Research：82 個(gè)將會(huì)或不會(huì)在 2024 年發(fā)生的技術(shù)趨勢(shì)白皮書(shū)《美國(guó)反無(wú)人機(jī)系統(tǒng)未來(lái)趨勢(shì)報(bào)告（2024 – 2029 年）》《軍事自主系統(tǒng)：未來(lái)之路》美空間智能如何？牛津大學(xué)博士論文《深度具身智能體的空間推理與規(guī)劃》2024 低空經(jīng)濟(jì)場(chǎng)景白皮書(shū) v1.0戰(zhàn)略與國(guó)際研究中心（CSIS）人類地月空間探索的總體狀況研究報(bào)告（2024）Artificial Intelligence Review：人工智能與物理學(xué)相遇的綜述麥肯錫：全球難題，應(yīng)對(duì)能源轉(zhuǎn)型的現(xiàn)實(shí)問(wèn)題歐米伽理論，智能科學(xué)視野下的萬(wàn)物理論新探索（研究論文）Gartner 2025 年主要戰(zhàn)略技術(shù)趨勢(shì)研究報(bào)告2024 人工智能?chē)?guó)外大模型使用手冊(cè) + 中文大模型使用手冊(cè)詳解光刻巨人 ASML 成功之奧妙 – 241015CB Insights：未來(lái)變革者：2025 年九大科技趨勢(shì)研究報(bào)告國(guó)際電信聯(lián)盟 2023 – 2024 年聯(lián)合國(guó)人工智能 AI 活動(dòng)報(bào)告《人工智能能力的人類系統(tǒng)集成測(cè)試和評(píng)估》最新 51 頁(yè)，美國(guó)防部首席數(shù)字和人工智能辦公室（CDAO）2024 瑞典皇家科學(xué)院諾貝爾化學(xué)獎(jiǎng)官方成果介紹報(bào)告MHP 2024 全球工業(yè) 4.0 晴雨表白皮書(shū)世界經(jīng)濟(jì)論壇白皮書(shū)《AI 價(jià)值洞察：引導(dǎo)人工智能實(shí)現(xiàn)人類共同目標(biāo)》瑞典皇家科學(xué)院諾貝爾物理學(xué)獎(jiǎng)科學(xué)背景報(bào)告資料AI 智能體的崛起：整合人工智能、區(qū)塊鏈技術(shù)與量子計(jì)算 (研究報(bào)告，書(shū)）OpenAI o1 評(píng)估：AGI 的機(jī)遇和挑戰(zhàn)（280 頁(yè)）世界知識(shí)產(chǎn)權(quán)組織：2024 年全球創(chuàng)新指數(shù)美國(guó)白宮：國(guó)家近地天體防御策略與行動(dòng)計(jì)劃上下滑動(dòng)查看更多

閱讀原文