Scaling Law或?qū)⒔K結(jié)？哈佛MIT預(yù)警：低精度量化已無路可走，重磅研究掀翻AI圈

AIGC動態(tài)歡迎閱讀

原標(biāo)題：Scaling Law或?qū)⒔K結(jié)？哈佛MIT預(yù)警：低精度量化已無路可走，重磅研究掀翻AI圈
關(guān)鍵字：精度,模型,權(quán)重,參數(shù),研究人員
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報道編輯：桃子 LRS
【新智元導(dǎo)讀】哈佛斯坦福MIT等機(jī)構(gòu)首次提出「精度感知」scaling law，揭示了精度、參數(shù)規(guī)模、數(shù)據(jù)量之間的統(tǒng)一關(guān)系。數(shù)據(jù)量增加，模型對量化精度要求隨之提高，這預(yù)示著AI領(lǐng)域低精度加速的時代即將結(jié)束！就連「量化」也不管用，scaling law真的要終結(jié)了嗎？
一提scaling law，人們重點(diǎn)關(guān)注的是參數(shù)規(guī)模、數(shù)據(jù)量等因素，卻忽視了「精度」這一關(guān)鍵變量。
哈佛斯坦福MIT等機(jī)構(gòu)研究人員竟發(fā)現(xiàn)，低精度訓(xùn)練會降低模型的「有效參數(shù)量」！
對此，他們提出了「精度感知（precision-aware）」scaling law。
論文地址：https://arxiv.org/pdf/2411.04330
對于推理過程來說，訓(xùn)練數(shù)據(jù)越多，量化帶來的性能損失越大。
就訓(xùn)練來說，「精度感知」scaling law能夠預(yù)測不同部分采用不同精度的模型的損失。在某些情況下，用低精度訓(xùn)練LLM可能更有效率。
論文中，作者統(tǒng)一了訓(xùn)練后和預(yù)訓(xùn)練量化的scaling law，建立了一個完整的理論框架。
這個單一函數(shù)形式可以預(yù)測在不同精度下進(jìn)行訓(xùn)練和推理時的性能降級。
基于46

原文鏈接：Scaling Law或?qū)⒔K結(jié)？哈佛MIT預(yù)警：低精度量化已無路可走，重磅研究掀翻AI圈