Scaling Law或?qū)⒔K結(jié)?哈佛MIT預(yù)警:低精度量化已無路可走,重磅研究掀翻AI圈
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Scaling Law或?qū)⒔K結(jié)?哈佛MIT預(yù)警:低精度量化已無路可走,重磅研究掀翻AI圈
關(guān)鍵字:精度,模型,權(quán)重,參數(shù),研究人員
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:桃子 LRS
【新智元導(dǎo)讀】哈佛斯坦福MIT等機(jī)構(gòu)首次提出「精度感知」scaling law,揭示了精度、參數(shù)規(guī)模、數(shù)據(jù)量之間的統(tǒng)一關(guān)系。數(shù)據(jù)量增加,模型對量化精度要求隨之提高,這預(yù)示著AI領(lǐng)域低精度加速的時代即將結(jié)束!就連「量化」也不管用,scaling law真的要終結(jié)了嗎?
一提scaling law,人們重點(diǎn)關(guān)注的是參數(shù)規(guī)模、數(shù)據(jù)量等因素,卻忽視了「精度」這一關(guān)鍵變量。
哈佛斯坦福MIT等機(jī)構(gòu)研究人員竟發(fā)現(xiàn),低精度訓(xùn)練會降低模型的「有效參數(shù)量」!
對此,他們提出了「精度感知(precision-aware)」scaling law。
論文地址:https://arxiv.org/pdf/2411.04330
對于推理過程來說,訓(xùn)練數(shù)據(jù)越多,量化帶來的性能損失越大。
就訓(xùn)練來說,「精度感知」scaling law能夠預(yù)測不同部分采用不同精度的模型的損失。在某些情況下,用低精度訓(xùn)練LLM可能更有效率。
論文中,作者統(tǒng)一了訓(xùn)練后和預(yù)訓(xùn)練量化的scaling law,建立了一個完整的理論框架。
這個單一函數(shù)形式可以預(yù)測在不同精度下進(jìn)行訓(xùn)練和推理時的性能降級。
基于46
原文鏈接:Scaling Law或?qū)⒔K結(jié)?哈佛MIT預(yù)警:低精度量化已無路可走,重磅研究掀翻AI圈
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: